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内 容 简 介 

本 书 详细 阐述 了 与 Python 数据 分 析 相 关 的 基本 解决 方案 ， 主 要 包括 Anaconda 和 Jupyter Notebook, 
NumPy 向 量 计算 、 数 据 分 析 库 pandas、 可 视 化 和 数据 分 析 、Python 统计 计算 、 预 测 分 析 模 型 等 内 容 。 此 
外 ， 本 书 还 提供 了 相应 的 示例 、 代 码 ， 以 帮助 读者 进一步 理解 相关 方案 的 实现 过 程 。 
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当今 ，Python 已 经 成 为 一 种 主流 的 编程 语言 ， 它 易于 读 写 ， 非 常 实 用 ， 从 而 赢得 了 广 
泛 的 群众 基础 ， 被 无 数 程序 员 热 烈 追 捧 。Python 几乎 在 每 个 领域 都 表现 得 非常 优秀 ， 这 是 
一 门 真正 意义 上 的 全 栈 语言 。 

此 外 ，Python 也 是 数据 分 析 人 员 和 统计 人 员 在 处 理 大 量 数据 集 和 复杂 数据 可 视 化 方面 
最 常见 和 最 流行 的 语言 之 一 。 具 体 来 说 ， 开 发 人 员 往 往 需要 在 工作 中 应 用 统计 技术 或 数据 
分 析 , 或 者 需要 与 Web 应 用 程序 进行 交互 。 特 别 是 ，Python 在 机 器 学 习 中 的 地 位 ， 它 的 机 
器 学 习 库 和 灵活 性 的 结合 使 得 Python 非常 适合 开发 复杂 的 模型 并 可 以 直接 在 应 用 中 加 以 
使 用 。 

本 书 介 绍 了 Python 语言 中 的 核心 工具 和 库 ， 以 帮助 读者 与 数据 分 析 处 理 过 程 协 同 工 
作 、 准 备 相 关 数 据 以 执行 简单 的 统计 学 分 析 ， 进 而 构建 有 具有 实际 意义 的 数据 可 视 化 结果 。 
本 书 将 讨论 Python 语言 中 的 各 种 库 ， 例 如 NumPy. pandas, matplotlib, seaborn, SciPy 和 
scikit-learn， 并 将 其 应 用 于 实际 数据 分 析 和 统计 示例 中 。 

在 本 书 的 翻译 过 程 中 ， 除 刘璋 外 ， 王 辉 、 刘 晓 雪 、 张 博 、 刘 禧 、 张 华 臻 等 人 也 参与 了 
部 分 翻译 工作 ， 在 此 一 并 表示 感谢 。 

由 于 译 者 水 平 有 限 ， 难 免 有 疏 漏 和 不 妥 之 处 ， 奶 请 广大 读者 批评 指正 。 
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Python 是 高 级 数据 分 析 师 和 统计 人 员 所 用 的 最 常见 和 最 流行 的 语言 之 一 ， 可 用 于 处 理 


大 型 


fe, 
本 书 


数据 集 和 复杂 的 数据 可 视 化 任务 。 

本 书 介绍 了 Python 语言 中 的 核心 工具 和 库 ， 以 帮助 读者 与 数据 分 析 处 理 过 程 协同 工 
准备 相关 数据 以 执行 简单 的 统计 学 分 析 ， 进 而 构建 具有 实际 意义 的 数据 可 视 化 结果 。 
将 讨论 Python 语言 中 的 各 种 库 ， 如 NumPy、pandas、matplotlib、seabom、SciPy 和 


scikit-learn， 并 将 其 应 用 于 实际 数据 分 析 和 统计 示例 中 。 在 阅读 过 程 中 , 读者 将 会 领略 到 如 
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效 地 使 用 Jupyter Noyebook， 并 借助 于 NumPy 和 landas 库 对 数据 进行 操控 。 此 外 ， 还 
用 Python 库 实 现 简单 的 预测 模型 、 统 计 计算 -分 析 和 数据 分 析 技 术 。 
在 阅读 完 本 书后 ， 读 者 在 基于 Python 的 数据 分 析 方 面 将 具备 较为 丰富 的 经 验 。 


适用 读者 


高 效 


本 书面 向 初级 数据 分 析 师 、 数 据 工 程 师 和 BI 专业 人 员 ， 他 们 希望 使 用 Python 工具 执行 
的 数据 分 析 。 要 理解 本 书 所 涉及 的 概念 ， 读 者 应 具备 Python 编程 方面 的 一 些 背 景 知识 。 


本 书 内 容 


科学 
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第 1 章 : Anaconda 和 Jupyter Notebook。 本 章 介绍 了 Python 中 一 些 较为 重要 的 数据 
库 ， 并 对 Python 预测 分 析 所 用 的 主要 对 象 、 属 性 、 方 法 和 函数 进行 了 整体 描述 。 
382%: NumPy 向 量 计算 。 本 章 讨论 NumPy 库 ， 这 也 是 Python 项 目 中 几乎 全 部 科学 
所 使 用 的 库 。 学 习 如 何 使 用 NumPy 数组 ， 对 于 Python 数据 科学 来 说 十 分 重要 。 

第 3 章 : 数据 分 析 库 pandas。 本 章 将 整体 介绍 pandas 库 。 对 于 Python 编程 语言 来 说 ， 


pandas 库 提 供 了 高 性 能 、 易 于 使 用 的 数据 结构 和 分 析 工 具 ， 因 而 受到 了 数据 科学 家 以 及 
Python 社区 开发 者 的 喜爱 。 本 章 将 通过 相关 示例 展示 如 何 利 用 pandas 执行 描述 性 分 析 。 


第 4 章 : 可 视 化 和 数据 分 析 。 本 章 将 考查 数据 科学 的 可 视 化 效果 。Python 针对 不 同 的 
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功能 提供 了 多 种 可 视 化 选项 。 本 章 将 学 习 两 种 最 为 流行 的 库 ， 即 matplotlib 和 seabom, J 


面向 真实 数据 集 执行 探索 性 数据 分 析 。 
第 5 章 : Python 统计 计算 。 本 章 解 释 了 如 何 利用 Python 执行 统计 计算 ， 并 据 此 考查 


包含 青少年 饮酒 信息 的 数据 集 。 
第 6 章 : 预测 分 析 模型 。 本 章 简要 介绍 了 预测 分 析 ， 并 通过 构建 一 个 模型 对 青少年 的 


饮酒 习惯 进行 预测 。 


资源 下 载 


本 书 将 引领 读者 整体 了 解 Python 中 的 数据 分 析 过 程 、Python 数据 科学 栈 中 的 主要 库 ， 
并 讨论 如 何 使 用 各 种 Python 工具 有 效 地 分 析 、 可 视 化 和 处 理 数据 。 
读者 可 访问 http:/Avww.packtpub.com 并 通过 个 人 账户 下 载 示例 代码 文件 。 另 外 ， 在 
http://www.packtpub.com/support 中 注册 成 功 后 ， 我 们 将 以 电子 邮件 的 方式 将 相关 文件 发 与 
读者 。 
读者 可 根据 下 列 步骤 下 载 代码 文件 。 
(1) 访问 www.packtpub.com， 利 用 电子 邮件 地 址 和 密码 登录 ， 或 注册 。 
(2) 选择 SUPPORT 选项 卡 。 
(3) 单 击 Code Downloads & Errata. 
(4) 在 Serach 文本 框 中 输入 书 名 。 
当 文 件 下 载 完 毕 后 ， 确 保 使 用 下 列 最 新 版 本 软件 解压 文件 夹 。 
口 Windows 系统 下 的 WinRAR/7-Zip。 
Q Mac 系统 下 的 Zipeg/iZip/UnRarX。 
Q Linux 系统 下 的 7-Zip/PeaZip。 
另外 ， 读 者 还 可 访问 GitHub 获取 本 书 的 代码 包 ， 对 应 网 址 为 https://github.com/ 
PacktPublishing/Become-a-Python-Data-Analyst。 此外， 读者 还 可 访问 https://github.com/ 


PacktPublishing/， 以 了 解 丰 富 的 代码 和 视频 资源 。 


下 载 彩色 图 像 


另外 ， 我 们 还 进一步 提供 了 本 书 所 用 截图 /图 表 的 彩色 图 像 ， 读 者 可 访问 http://www. 


woo 


“Ve 


packtpub.com/sites/default/files/downloads/BecomeaPythonDataAnalyst_ColorImages.pdf 进行 


下 载 。 


本 书 约定 


本 书 通过 不 同 的 文本 风格 区 分 相应 的 信息 类 型 。 下 面 通 过 一 些 示例 对 此 类 风格 以 及 有 具 


体 含义 的 解释 予以 展示 。 
代码 块 如 下 所 示 。 


# The largest heading 
## The second largest heading 
###### The smallest heading 


当 某 个 代码 块 希望 引起 读者 的 足够 重视 时 ， 一 般 会 采用 黑体 表示 ， 如 下 所 示 。 


[default] 
exten => s,1,Dial(Zap/1|30) 
exten => s,2,Voicemail 


(ul00) 
exten => s,102,Voicemail (b100) 
exten => 


i,1,Voicemail (s0) 


图标 则 表示 较为 重要 的 说 明 事 项 。 
人 图标 则 表示 提示 信息 和 操作 技巧 。 


读者 反馈 和 客户 支持 


欢迎 读者 对 本 书 的 建议 或 意见 予以 反馈 。 对 此 , 读者 可 向 feedback@packtpub.com 发 送出 


st, 


并 以 书 名 作为 邮件 标题 。 若 读者 对 本 书 有 任何 疑问 ， 均 可 发 送 邮件 至 questions@packtpub.com, 
我 们 将 竟 诚 为 您 服务 。 若 读者 针对 某 项 技术 具有 专家 级 的 见解 ， 抑 或 计划 撰写 书籍 或 完善 


某 部 著作 的 出 版 工作 ， 则 可 访问 www.packtpub.com/authors. 
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尽管 我 们 在 最 大 程度 上 做 到 尽善尽美 ， 但 错误 依然 在 所 难免 。 如 果 读 者 发 现 廖 误 之 处 ， 
无 论 是 文字 错误 抑或 是 代码 错误 ， 还 望 不 音 赐 教 。 对 此 ， 读 者 可 访问 http://www.packtpub.com/ 
submit-errata， 选 取 对 应 书籍 ， 然 后 单 击 Errata Submission Form 超 链接 ， 并 输入 相关 问题 


版 权 须 知 


一 直 以 来 ， 互联 网 上 的 版 权 问 题 从 未 间断 ，Packt 出 版 社 对 此 类 问题 异常 重视 。 若 读者 
在 互联 网 上 发 现 本 书 任意 形式 的 副本 , 请 告知 网 络 地 址 或 网 站 名 称 , 我 们 将 对 此 予以 处 理 。 
关于 盗版 问题 ， 读 者 可 发 送 邮 件 至 copyright@packtpub.com。 
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第 1 章 Anaconda 和 Jupyter Notebook 


本 书 主要 介绍 基于 Python 的 数据 分 析 的 基本 概念 。 在 第 1 章 中 ， 我 们 将 学 习 如 何 安 
装 Anaconda， 其 中 包含 了 本 书 所 用 的 全 部 软件 。 此 外 ， 本 章 还 将 引入 Jupyter Notebook， 
这 也 是 全 部 工作 的 计算 环境 。 相 应 地 ， 我 们 将 通过 具体 解决 方案 帮助 读者 快速 掌握 相关 
工具 。 


章 主 要 涉及 以 下 内 容 。 

Anaconda 及 其 所 处 理 的 问题 。 

如 何在 计算 机 设备 上 安装 、 启 用 Anaconda. 
通过 Jupyter Notebook 执行 计算 和 分 析 任 务 。 
Jupyter Notebook 中 一 些 有 用 的 命令 和 快捷 操作 。 


DOOD # 


1.1 Anaconda 


针对 开发 人 员 和 数据 科学 家 ，Anaconda Æ Python 提供 的 一 个 免费 、 易 于 安装 的 包 管 
理 和 环境 管理 工具 ， 进 而 使 得 科学 计算 、 数 据 科 学 、 统 计 分 析 和 机 器 学 习 中 的 包 管 理 和 
部 署 更 加 简单 。Anaconda 由 Continuum Analytics 推出 , 读者 可 访问 https://www.anaconda. 
com/download/ 免 费 下 载 。 

Anaconda 是 一 个 工具 箱 ， 即 执行 Python 数据 分 析 任 务 时 的 一 个 工具 集 。 另 外 ， 读 者 
也 可 免费 下 载 独立 的 工具 ， 但 在 后 续 操 作 中 ， 获 取 整 个 工具 箱 则 肯定 更 加 方便 。 这 也 是 
Anaconda 的 用 武之 地 一 一 在 查找 各 种 工具 并 将 其 安装 至 系统 的 过 程 中 ， 这 将 会 节省 大 量 
的 时 间 。 除 此 之 外 , 在 单独 安装 Python 包 时 , Anaconda 还 负责 处 理 所 产 生 的 包 依赖 关系 ， 
以 及 其 他 的 潜在 冲突 和 问题 。 

当 访 问 https://www.anaconda.com/download/ 时 , 可 以 看 到 针对 不 同 操作 系统 的 各 种 下 
载 选项 ， 读 者 需要 根据 自己 的 操作 系统 选取 相应 的 安装 程序 。 在 下 载 页 面 中 ， 读 者 将 
会 看 到 两 个 安装 程序 ， 即 Python 3.7 和 Python 2.7， 本 书 将 采用 Python 3.7， 如 图 1.1 
所 示 。 

下 载 Anaconda 软件 的 最 新 版 本 ， 并 将 其 保存 至 Downloads 文件 夹 中 。 


{D ANACONDA 


Anaconda Distribution 


二 windows | @ macos 


Python 数据 分 析 师 修炼 之 道 


| A une 


Anaconda 2018.12 for Windows Installer 


Python 3.7 version 


64.81 Geprvca netaber 1034 3 MB) 
32.8 Graphic! mealer (5097 MB) 


图 1.1 


Oz. 


鉴于 本 书 中 的 示例 运行 于 Windows 环境 下 ， 


Python 2.7 version 


(64-81 Gropheel netater (3606 ME) 
32.8 Graphical netae (458.6 MB) 


因而 这 里 选择 针对 Windows 的 64 位 安 


装 程序 。macOS 和 Linux 的 安装 过 程 也 基本 类 似 。 


Anaconda 的 安装 过 程 较为 简单 ， 且 与 其 他 软件 的 安装 过 程 并 无 太 多 不 同 。 双 击 .exe 
文件 ， 并 在 当前 系统 中 安装 Anaconda 软件 。 相 关 步 骤 简 单 明 了 ， 另 外 ， 在 软件 的 安装 过 


程 中 ， 还 会 显示 相应 的 提示 信息 。 有 具体 安装 步 又 
(1) 单 击 第 一 个 安装 程序 对 话 框 中 的 Next 
(2) 在 浏览 了 软件 的 相关 条 款 和 条 件 后 ， 生 


如 下 。 
按钮 。 
击 许可 协议 中 的 IAgree 按钮 。 


(3) 在 选项 中 选择 Just Me 并 单 击 Next 按钮 。 
(4) 选取 默认 的 安装 目标 文件 夹 并 单 击 Next 按钮 。 


G) 随后 将 询问 环境 变量 ， 以 及 是 否 需要 将 Anaconda 注册 为 默认 的 Python. XH 


后 单 击 Install 按钮 。 


(6) 安装 结束 后 ， 单 击 安装 程序 对 话 框 中 的 Finish 按钮 。 
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1.2 Jupyter Notebook 


Jupyter Notebook 是 一 个 Web 应 用 程序 ， 可 创建 、 共 享 文档 。 该 文档 中 包含 了 实时 代 
码 、 等 式 、 可 视 化 结果 以 及 解释 性 文本 内 容 ， 其 用 途 包 括 数据 清理 和 转换 、 数 值 模拟 、 
统计 建 模 、 机 器 学 习 等 。Jupyter Notebook 类 似 于 一 个 画布 Canvas) 或 环境 ， 可 使 用 编 
程 语言 (在 当前 示例 中 是 Python) 执行 计算 并 以 非常 方便 的 方式 显示 结果 。 

如 果 读 者 正在 进行 某 种 分 析 工 作 ， 那 么 Jupyter Notebook 是 非常 方便 的 一 一 其 间 通 常 
会 包含 解释 性 文本 、 产 生 结 果 的 代码 和 可 视 化 结果 ， 这 些 都 显示 在 Jupyter Notebook 中 。 
据 此 ， 使 用 任何 编程 语言 ， 特 别 是 Python， 它 都 是 一 种 非常 方便 的 分 析 工 作 方 法 。Jupyter 
项 目 诞生 于 2014 年 IPython 项 目 。 现 在 ， 它 已 经 发 展 到 支持 多 种 编程 语言 的 交互 式 数据 
科学 和 科学 计算 工具 ， 因 此 可 以 将 Jupyter Notebook 与 许多 其 他 编程 语言 一 起 使 用 (多 达 
20 种 语言 ) 。Jupyter 这 一 名 称 来 自 Julia、Python 和 及 ， 这 也 是 Jupyter Notebook 最 初 支 
持 的 3 种 编程 语言 。 


1.2.1 创建 自己 的 Jupyter Notebook 


当 启 动 Anaconda 并 开启 Jupyter Notebook 时 ， 可 从 安装 程序 列表 中 单 击 Anaconda 
Prompt. Anaconda Prompt 可 视 为 一 个 终端 (Terminal) ， 用 户 可 在 其 中 输入 相关 命令 。 
下 面 首先 在 桌面 生成 一 个 名 为 PythonDataScience 的 文件 夹 ， 该 目录 将 存储 在 Jupyter 
Notebook 中 为 本 书 编写 和 运行 的 所 有 Python 代码 。 

一 且 打 开 终 端 ， 可 输入 cd Desktop/PythonDataScience 命令 并 按 Enter 键 访 问 
PythonDataScience。 为 了 启用 该 目录 中 的 Jupyter Notebook 应 用 程序 ， 可 输入 jupyter 
notebook 命令 并 按 Enter 键 。 这 将 启动 当前 应 用 程序 ， 并 可 在 浏览 器 的 选项 卡 中 看 到 该 应 
用 程序 的 主 界面 ， 如 图 1.2 所 示 。 


二 Jupyter 


Fies Running Clusters 
Select items to perform actions on them 

口 o | ~ | m 

口 号 FirstPractice ipynb 


口 号 Untitedipynb 
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图 1.2 中 包含 了 3 个 选项 卡 。 在 Files 选项 卡 中 ,可 以 看 到 文件 夹 内 包含 的 所 有 文件 ; 
TE Running 选项 卡 中 , 可 以 看 到 处 于 运行 状态 的 程序 , 如 Terminal 或 Notebook; 在 Clusters 
选项 卡 中 ， 则 显示 了 与 并 行 计算 相关 的 细节 内 容 ， 但 本 书 将 不 会 涉及 这 一 特性 。 

Files 选项 卡 则 是 本 书 所 用 的 主 选项 卡 。 当 创建 新 的 Jupyter Notebook 时 ， 可 执行 New | 
Python 3 Notebook 命令 ， 如 图 1.3 所 示 。 


= jupyter Untitled1 Last Checkpoint: an hour ago (autosaved) 


File Edit View Insert Cell Kem elp 


图 1.3 
这 将 打开 新 的 文件 ， 即 开始 编码 并 运行 Python 代码 的 Jupyter Notebook. 


1.2.2 Jupyter Notebook 用 户 界面 


Jupyter Notebook 包含 了 一 些 较为 有 用 的 界面 ， 并 可 在 操作 过 程 中 显示 一 些 重要 的 信 
息 和 提示 。 此 处 访问 Help 命令 , 单 击 User Interface Tour, 并 快速 浏览 一 下 Jupyter Notebook 
中 的 界面 ， 如 图 1.4 所 示 。 


T Home HY @ Unctiest 


图 1.4 
在 Jupyter Notebook 中 的 主页 面 中 ， 包 含 了 以 下 主 界面 。 


口 fei (1) : 表示 为 对 应 的 文件 名 ， 用 户 还 可 对 Jupyter Notebook 的 文件 名 进行 
修改 。 

OQ #8 2): 与 其 他 桌面 应 用 程序 类 似 ， 菜 单 栏 中 包含 了 不 同 的 操作 。 

Q 工具 栏 G): 位 于 菜单 栏 下 方 ， 其 中 包含 了 一 些小 图 标 ， 进 而 执行 某 些 常见 的 
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操作 ， 如 保存 文件 、 分 割 单元 、 粘 贴 单元 、 移 动 单元 等 。 
口 模式 指示 器 (4) : 位 于 菜单 栏 的 右 侧 。Jupyter Notebook 包含 了 两 种 模式 ， 即 
Edit 模式 和 Command 模式 。 其 中 ，Command 模式 中 涵盖 了 许多 可 用 的 键盘 快 
捷 操 作 。 在 该 模式 中 ， 指 示 器 区 域 并 不 会 显示 任何 图 标 ， 且 需要 对 文件 自身 进 
行 操作 ， 如 保存 文件 、 复 制 和 粘贴 单元 等 。Edit 模式 则 人 允许 用 户 在 某 个 单元 中 
编写 代码 或 文本 。 当 采用 Edit 模式 时 ， 将 会 在 指示 器 区 域 看 到 一 个 铅笔 图 标 。 
O xz. 
Jupyter Notebook 由 两 种 单元 类 型 构成 ， 即 代码 单元 和 文本 单元 。 当 在 Edit 模型 下 ， 
所 选单 元 的 边框 呈现 为 绿色 - 当 从 Edit 模式 返回 Command 模式 时 ,可 按 Esc 键 或 CtrlHM 
快捷 键 。 此 外 ， 还 存在 多 种 可 用 的 键盘 快捷 方式 ， 读 者 可 访问 Help 命令 查看 快捷 操作 
列表 


O ”内核 指 示 器 G): 显示 系统 的 计算 进程 的 状态 。 当 中 断 进 程 中 的 计算 时 ， 可 使 
用 工具 栏 中 的 stop 按钮 。 

O 消息 区 域 (6) : 该 区 域 将 显示 相关 消息 , 如 saving the file, interrupting the kernel 
等 。 在 消息 区 域 中 ， 用 户 可 看 到 所 执行 的 操作 。 


1.3 使 用 Jupyter Notebook 


下 面 打开 新 的 Jupyter Notebook， 生 成 新 的 Python 3 Jupyter Notebook， 并 将 其 命名 为 
FirstPractice。 如 前 所 述 ，Jupyter Notebook 由 单元 构成 ， 其 中 包含 了 两 种 单元 类 型 ， 即 代 
码 单元 和 文本 单元 。 每 次 打开 Jupyter Notebook 时 ， 将 会 显示 代码 单元 ， 用 户 可 于 其 中 执 
行 任何 Python 语句 。 


1.3.1 在 代码 单元 格 中 运行 代码 


本 节 将 尝试 运行 一 些 简单 的 代码 语句 ， 并 学 习 如 何在 代码 和 文本 间 调 整 单元 类 型 。 
对 此 ， 可 在 第 一 个 代码 单元 格 中 输入 1+1 并 执行 该 代码 。 当 通过 单 击 run cell 按钮 运行 
元 格 中 代码 时 ， 将 会 在 代码 单元 格 下 方 看 到 一 行 输出 结果 ， 如 图 1.5 所 示 。 

接 下 来 生成 一 个 变量 a， 将 其 赋值 为 10 并 运行 代码 。 虽 然 该 变量 已 被 创建 ， 但 考虑 
到 尚未 编写 任何 代码 计算 该 变量 ， 因 而 无 法 看 到 相应 的 输出 结果 。 当 执行 这 一 条 语句 时 ， 
如 果 使 用 到 该 变量 ， 例 如 ， 将 该 变量 加 1， 运 行 代码 后 将 会 看 到 如 图 1.6 所 示 的 结果 。 


THs 


B | +|| 外 | m 


Python 数据 分 析 师 


个 © HRun E 


图 1.6 


修炼 之 道 


C W Code 


下 面 考查 基于 变量 i 的 for 语法 示例 ， 如 图 1.7 所 示 。 


: |for i in rar 
print (i 


其 


图 1.7 所 示 。 


1ge (10): 


图 1.7 


1.3.2 ”在 文本 单元 格 中 运行 markdown 语法 


之 前 曾 谈 到 ， 单 元 格 的 默认 类 型 是 代码 间 


当 对 应 值 位 于 range(10) 时 ， 上 述 代码 将 通知 Jupyter Notebook 输出 i 值 ， 对 应 结果 如 


元 格 ， 并 可 于 其 中 编写 Python 表达 式 。 除 


此 之 外 ， 另 一 种 类 型 则 是 文本 刘 


元 格 ， 并 可 用 了 


编写 文本 


内 容 ， 在 当前 输出 结果 


单元 格 中 ， 可 尝试 输入 This is regular text。 当 执行 Cell | Cell Type | Markdown 命令 


方 的 


H, Bp 


可 通知 Jupyter Notebook， 当 前 内 容 并 非 Python 代码 ， 而 是 文本 内 容 。 运 行 代码 后 ， 将 会 
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发 现 输出 结果 表示 为 文本 ， 且 与 我 们 输入 的 内 容 保持 一 致 ， 如 图 1.8 所 示 。 


This is regulartext 


BE 


图 1.8 
当 采 用 markdown 语法 时 ， 可 通过 多 种 方式 格式 化 文本 。 如 果 读 者 对 此 感到 陌生 ， 可 
查看 Help | Markdown， 即 GitHub 帮助 页 面 。 
Oza. 


Jupyter Notebook 采用 的 markdown 与 GitHub 中 的 markdown 保持 一 臻 


文本 的 样式 和 格式 十 分 丰富 , 读者 可 访问 https://help.github.com/articles/basic-writing- 
and-formatting-syntax/ 查 看 全 部 信息 。 本 章 仅 讨论 较为 重要 的 标题 内 容 。 

当 创建 一 个 标题 时 ， 需 要 在 标题 文本 前 添加 一 个 “#?” 符 号 (1 一 6 个 “#” 符 号 ) 。 
相应 地 ，“#” 符 号 的 数量 决定 了 标题 的 大 小 ， 其 中 ，1 一 6 个 “# ”符号 分 别 对 应 于 最 大 
和 最 小 尺寸 的 标题 ， 如 下 所 示 。 

# The largest heading 


## The second largest heading 
###### The smallest heading 


图 1.9 显示 了 上 述 语法 的 输出 结果 。 


The largest heading 


The second largest heading 


The smallest heading 


图 1.9 
当 在 代码 单元 格 中 运行 上 述 内 容 时 ， 将 会 得 到 一 系列 的 Python 命令 。 如 前 所 述 ， 我 
们 需要 看 到 具有 一 定格 式 的 文本 内 容 ， 因 而 需要 通知 Jupyter Notebook， 通 过 将 单元 类 型 
标记 为 markdown， 对 应 内 容 为 文本 。 
1. 样式 和 格式 
此 外 ， 我 们 还 可 尝试 引入 其 他 格式 ， 如 黑体 、 和 斜体、 删除 线 以 及 黑体 -斜体 。 图 1.10 
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显示 了 不 同 的 样式 及 其 对 应 的 语法 。 


Syntax Keyboard Example Output 
shortcut 


command/control - + This is bold text 
+b 


command/control | = rh: s This text is 
+i ta italicized 


Strikethrough a5 mistak Fhis-was-mistaken 
text 


This text is 
extremely 
important 


图 1.10 
男 外 ，“>” 符 号 指定 了 引用 内 容 。 尝 试 利用 以 下 语法 运行 markdown 单元 。 


In the words of Abraham Lincoln: 
> Pardon my French 


对 应 结果 如 图 1.11 所 示 。 


In the words of Abraham Lincoln: 


Pardon my French 


图 1.11 


其 中 ， 文 本 的 样式 和 格式 保持 一 致 ， 但 引 
2. 列表 

在 一 行 或 多 行 间 使 用 “-” 或 “* ”可 创建 项 目 列表 形式 。 此 外 ， 还 可 使 用 1、2、3 
生成 带 有 序号 或 有 序 的 列表 ， 如 下 所 示 。 


的 文本 内 容 包含 了 一 定 的 缩 进 。 


- George Washington 
- John Adams 
- Thomas Jefferson 
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1. James Madison 
2. James Monroe 
3. John Quincy Adams 


当 运 行 上 述 markdown 语法 时 ， 对 应 结果 如 图 1.12 所 示 。 


+ George Washington 
+ John Adams 
+ Thomas Jefferson 


1. James Madison 
2. James Monroe 
3. John Quincy Adams 


图 1.12 


读者 可 访问 Jupyter Notebook 网 站 ， 其 中 包含 了 更 为 丰富 的 样式 和 格式 语法 。 


1.3.3 ”键盘 快捷 操作 


当 每 次 需要 运行 单元 格 或 者 将 代码 单元 格 转换 为 markdown 单元 格 时 , 频繁 的 鼠标 操 
作 使 得 整个 过 程 异常 烦琐 。 为 了 简化 任务 ，Jupyter Notebook 中 提供 了 大 量 可 用 的 键盘 快 
捷 操 作 。 下 面 考查 较为 重要 的 一 些 操作 。 
例如 ， 当 运行 一 个 单元 格 时 ， 如 计算 1+2， 则 可 使 用 Alt+Enter 快捷 键 ， 该 快捷 方式 
将 运行 单元 格 中 的 代码 ， 并 在 输出 结果 下 方 创建 一 个 新 的 单元 格 。 但 是 ， 如 果 仅 希望 运 
行 计算 过 程 ， 则 可 使 用 Ctrl+Enter 快捷 键 ， 这 使 得 Jupyter Notebook 运行 该 单元 格 中 的 代 


码 ， 并 显示 输出 结果 ， 但 


工作 空间 。 


Qz: 


不 会 生成 新 的 
单元 格 ， 则 可 按 B 键 ; 按 下 A 键 则 会 在 当前 
Notebook 进行 交互 操作 时 ， 这 将 十 分 有 用 ， 其 


元 格 。 如 果 打 算 在 当前 单元 格 下 方 插入 新 的 
元 格 上 方 创建 新 的 单元 格 。 当 在 Jupyter 
间 需 要 生成 多 个 


元 格 ， 进 而 包含 更 多 的 


读者 可 通过 Help | Keyboard Shortcuts 命 令 来 查看 Jupyter Notebook 中 完整 的 快捷 方式 


列表 。 


另 一 种 较为 有 用 的 操作 方式 是 在 代码 单元 和 markdown 单元 间 进 行 转换 。 如 果 希 望 将 
代码 单元 转换 为 文本 单元 ， 可 按 M 键 ， 这 将 把 Edit 模式 转换 为 Command 模式 。 除 此 
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之 外 ， 如 果 用 户 当前 位 于 Command 模式 ， 且 希望 转换 至 代码 单元 或 Edit 模式 ， 则 可 按 
Esc 键 。 


1.4 本 章 小 结 


本 章 介 绍 了 Anaconda， 同 时 还 安装 了 本 书 所 需 的 全 部 软件 (包含 于 Anaconda F) 。 
另外 ， 我 们 还 学 习 了 Jupyter Notebook 及 其 基本 的 操作 方式 。 其 中 涉及 代码 单元 、markdown 
单元 ， 以 及 与 Jupyter Notebook 协同 工作 时 的 一 些 快捷 操作 ， 以 使 工作 流 变 得 更 加 高 效 。 

第 2 章 将 讨论 NumPy， 它 是 执行 数值 计算 时 的 核心 库 ， 同 时 也 是 PythonX 系统 中 每 
个 科学 计算 项 目的 核心 内 容 。 


#28 NumPy 向 量 计算 


本 章 将 讨论 NumPy， 这 是 一 个 Python 编程 语言 库 。 此 外 ， 我 们 还 将 学 习 NumPy 中 
较为 重要 的 对 象 类 型 一 一 数组 ， 其 间 还 会 涉及 数组 的 协同 工作 方式 、 重 要 的 方法 和 属性 。 
随后 , 本 章 还 将 应 用 所 学 的 知识 考查 如 何在 实际 操作 过 程 中 使 用 NumPy。 在 本 章 的 结尾 ， 
读者 还 将 了 解 Python 数据 科学 栈 中 的 其 他 库 ， 如 Matplotlib。 相 应 地 ， 本 章 将 辅 以 相关 示 
例 进 一 步 阐明 NumpPy 的 重要 性 及 其 所 处 理 的 问题 。 

本 章 主要 涉及 以 下 主题 。 

O NumPy 简介 。 

NumPy 数组 一 一 构建 、 方 法 和 属性 。 
基于 数组 的 数学 基础 知识 。 
数组 的 操控 方式 。 

通过 NumPy 执行 模拟 操作 。 


Oooo 


2.1 NumPy 简介 


NumPy, 也 称 作 Python 的 向 量化 解决 方案 , 是 Python 语言 中 执行 科学 计算 的 数据 包 。 
据 此 ， 我 们 可 以 创建 多 维 数组 对 象 ， 此 外 ， 相 比 于 基本 的 Python 功能 ， 还 可 执行 快速 的 
数学 计算 ,NumPy 是 大 多 数 Python 数据 科学 生态 圈 中 的 基础 内 容 。Python 中 其 他 可 用 的 
数据 分 析 库 还 包括 scikit-learn 和 pandas， 且 均 依 束 于 NumPy。 以 下 内 容 展示 了 NumPy 
中 的 一 些 高 级 特征 。 

Q NumPy 提供 了 一 些 较 为 高 级 的 (广播 ) 函数 。 

OQ 相关 工具 可 与 底层 语言 集成 ， 如 C、C++ 和 Fortran 语言 。 

O ”可 执行 线性 代数 以 及 复杂 的 数学 计算 , 如 傅 里 叶 转 换 (FT) 和 随机 数 生成 器 (RNG ) 。 
因此 ， 如 果 希 望 执行 某 些 大 规模 的 高 性 能 数据 分 析 ， 且 对 运行 速度 有 着 较 高 的 要 求 ， 
则 可 尝试 将 Python 代码 与 上 述 底层 编程 语言 进行 集成 。 

接 下 来 通过 一 些 示 例 讨 论 NumPy 所 处 理 的 问题 类 型 及 其 使 用 原因 。 假设 对 于 一 些 与 
距离 和 时 间 相 关 的 数据 ， 需 要 对 此 进行 计算 以 得 到 对 应 的 速度 。 这 里 ， 一 种 方案 是 在 
Python 中 生成 一 个 空 表 ， 编 写 for 循环 并 写 入 结果 ， 即 距离 除 以 时 间 ， 进 而 生成 最 终 的 速 
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度 值 ， 如 图 2.1 所 示 。 


distances = [19, 15, 17, 26, 20] 
times = [0.3, 0.47, 0.55, 1.20, 1.0 


# Calculate speeds with Python 
speeds = [] 
for i in range(len(distances)): 
speeds .append(distances[i]/times[i]) 


speeds 


[33.333333333333336, 
31.914893617021278, 
30. 9090909090909907, 
21.666666666666668, 
20.0] 


图 2.1 


图 2.1 显示 了 经 计算 后 的 新 的 列表 ， 即 距离 除 以 时 间 。 当 然 ， 也 可 通过 另 一 种 更 加 
Python 化 的 方式 执行 列表 推导 。 因 此 ， 如 果 使 用 [djt for dt in zip(distances, times)]， 而 非 
for 循环 ， 我 们 将 会 得 到 相同 的 结果 ， 如 图 2.2 所 示 。 


In [3]: [d/t for d,t in zip(distances，times)] 


Out[3]: [33.333333333333336， 
31.914893617021278, 


30. 909090909090997 , 
21.666666666666668， 
20.0] 


图 2.2 
对 于 给 定 的 数据 ， 这 也 是 解决 速度 计算 问题 的 传统 方法 ， 而 之 前 的 方法 则 是 Python 
中 所 采用 的 基本 方法 。 
下 面 根 据 购物 分 析 查 看 另 一 个 示例 ， 也 就 是 说 ， 根 据 商品 总 量 和 每 件 商品 的 价格 ， 
计算 购买 总 额 。 因 此 ， 为 了 得 到 全 部 购买 总 额 ， 需 要 将 每 件 商品 数量 乘 以 对 应 的 价格 ; 
E 乘 法 计算 完毕 后 ， 需 要 再 次 执行 加 法 运算 。 在 Python F, 一般 通 过 以 下 代码 予以 表示 。 


mM 


sum([q*p for q,p in zip(product_quantities, prices) ]) 

首先 ， 代 码 中 使 用 了 一 个 sum 函数 ， 即 数量 乘 以 价格 ; 随后 ， 为 了 获得 加 法 结果 ， 
可 生成 一 个 列表 推导 ， 这 也 是 在 Python 中 处 理 此 类 问题 的 常见 做 法 。 此 时 ， 如 果 运 行 该 
元 ， 对 应 结果 为 157.1， 即 数量 和 价格 集合 中 的 全 部 总 计 结 果 ， 如 图 2.3 所 示 。 


Ime 
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product_quantities = [13, 5, 6, 10, 11] 
prices = [1.2, 6.5, 1.0, 4.8, 5.0] 
total = sum([q*p for q,p in zip(product_quantities, prices)]) 


total 


> 457.4 


Al 2.3 


一 种 较 好 的 方法 是 ,通过 distances/times 获得 速度 值 ， 并 将 第 二 个 问题 中 的 总 量 定义 
为 product_quantities FLA prices 列表 ， 并 得 到 乘法 的 求 和 结果 。 

然而 ， 当 运行 单元 代码 时 ， 将 得 到 一 条 错误 信息 ， 其 原因 在 于 ，Python 并 不 支持 列 
表 间 的 除法 运算 ， 以 及 列表 间 的 乘法 运算 一 一 但 这 正 是 NumPy 的 用 武之 地 ， 即 我 们 常 
说 的 向 量化 计算 。 此 处 ， 向 量化 是 指 对 数组 进行 操作 ， 如 对 象 或 列表 ， 抑 或 逐 元 素 执行 
操作 。 


2.2 NumPy 数组 


NumPy 的 主要 对 象 是 一 个 齐 次 多 维 数 组 。 数 组 本 质 上 是 由 相同 类 型 的 元 素 (通常 是 
数字 ) 组 成 的 表 ， 并 通过 正 整 数 元 组 索引 。 在 NumPy 数组 中 ， 索 引 一 般 从 0 开始 计数 。 
因此 ， 第 1 个 元 素 为 元 素 0; 第 2 个 元 素 表示 为 元 素 1， 以 此 类 推 。 在 NumPy 中 ， 维 度 
也 称 作 轴 (axe) ; 轴 数 或 维度 也 称 作 数 组 的 秩 或 维 数 。 在 将 NumPy 导入 Jupyter Notebook 
中 时 ， 可 使 用 numpy as np 这 一 类 导入 语句 。 


2.2.1 在 NumPy 中 创建 数组 


在 Python 中 ， 以 下 两 种 方法 可 用 于 创建 数组 。 

O ”从 列表 中 创建 数组 。 

O ”使 用 Numpy 提供 的 内 建 函数 。 

1. 从 列表 中 创建 数组 

当 从 列表 中 创建 NumPy 数组 时 ， 可 使 用 np.array 函数 。 前 述 示例 中 的 列表 ， 如 
distances, times, product quantities、prices， 将 通过 np.array 函数 被 转换 为 数组 。 对 此 ， 
可 针对 每 个 列表 运行 以 下 代码 行 。 


distances = np.array (distances) 


times = np.array (times) 
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product quantities = np.array (product quantities) 

prices = np.array (prices) 

上 述 示例 将 把 Python 列表 中 的 对 象 转换 为 NumPy 数组 。 当 考查 这 一 新 对 象 时 ， 可 
在 单元 中 调用 distances 对 象 名 ， 进 而 运行 该 对 象 。 随 后 将 会 看 到 如 图 2.4 所 示 的 数组 。 


In [9]: distances 


Out[9]: array([10, 15, 17, 26, 20] 


图 2.4 


通过 运行 type(distances) 代 码 , 还 可 查看 该 对 象 的 类 型 。 当 在 单元 中 运行 上 述 代码 时 ， 
将 会 看 到 如 图 2.5 所 示 的 输出 结果 ， 即 对 象 类 型 。 


In [10]: type(distances) 


Out[16]: numpy.ndarray 


图 2.5 

其 中 ，Python 显示 了 一 个 numpy.ndarray 类 型 的 对 象 。 这 里 ，n 表示 为 n 维 数 组 ， 也 
称 作 一 维 数组 ， 有 时 可 将 其 称 为 向 量 。 
O 注意 

NumPy 向 量 和 一 维 数组 具有 相同 的 含义 。 若 传递 np.array() ( 即 列表 的 列表 ) ， 则 会 
创建 一 个 二 维 数组 ; 如 果 传 递 一 个 列表 的 列表 ， 将 会 生成 一 个 三 维 数组 ; 等 等 

下 面 考查 另 一 个 示例 ， 以 便 更 好 地 理解 如 何 通过 一 个 列表 的 列表 创建 一 个 二 维 数组 ， 
如 图 2.6 所 示 。 


In [11]: A = np.array([[1, 2], [3, 4]]) 


A 
A 


Out[11]: array([[1, 2], 
[3, 4]]) 


图 2.6 
这 里 ， 列 表 包含 了 两 个 元 素 ， 每 一 个 元 素 都 表示 为 外 部 列表 中 的 列表 本 身 ， 且 每 个 
列表 均 包 含 两 个 元 素 。 因 此 ， 这 可 定义 为 一 个 包含 两 行 、 两 列 的 二 维 数组 。 有 时 ， 也 可 
将 二 维 数组 称 作 和 矩阵， 即 2x2 ERE. 
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2. 从 内 置 的 NumPy 函数 中 创建 数组 

NumPy 自身 也 提供 了 一 些 函数 可 创建 数组 。 某 些 时 候 ， 即 使 在 未 确定 数组 元 素 值 的 
情况 下 ， 我 们 仍 需要 初始 化 数组 。 对 此 ， 有 必要 通过 默认 值 生成 数组 。 下 面 对 这 一 类 较 
为 重要 的 函数 进行 逐一 考查 。 

首先 是 np.zeros 函数 ， 该 函数 将 生成 包含 0 值 的 NumPy 数组 。 作 为 可 选项 ， 还 可 指 
定数 组 的 类 型 。 在 当前 示例 中 ， 参 数 类 型 定义 为 dtype=int， 也 就 是 说 ， 数 组 的 全 部 元 素 
均 为 整 型 ， 如 图 2.7 所 示 。 


In [12]: |# Create a Length-10 integer array filled with zeros 
np.zeros(10, dtype=int) 


Out[12]: array([@, ©, ©, ©, ©, ©, ©, ©, ©, 9]) 


图 2.7 
在 上 述 示例 中 ，np.zeroes(10, dtype=int) 创 建 了 一 个 包含 10 个 整数 的 数组 。 最 终 ， 我 
们 得 到 了 包含 10 个 0 值 的 整 型 NumPy 数组 。 
接 下 来 是 np.ones 函数 。 作 为 可 选项 ， 可 向 该 函数 中 传递 shape 函数 ， 表 示 每 个 维度 
中 元 素 的 数量 ,这 里 , 第 一 个 维度 中 赋值 为 3, 第 二 个 维度 赋值 为 5, 参数 类 型 定义 为 float， 
如 图 2.8 所 示 。 


In [13]: # Create a 3x5 floating-point array filled with ones 
np.ones(shape=(3, 5), dtype=float) 


Out[13]: array([[1., 1., 1., 1., 1.], 
[1., 1., 1., 1., 1.], 
[1-, 1., 1., 1., 1.]]) 


图 2.8 
当 运 行 np.ones(shape=(3, 5), dtype=float) 时 ， 将 得 到 一 个 3x5 矩阵 ， 且 针对 每 个 float 
类 型 对 象 填充 1。 
NumPy 中 还 设置 了 一 个 非常 有 用 的 函数 ， 可 于 其 中 创建 数组 并 利用 线性 序列 进行 填 
充 。 相 应 地 ， 存 在 以 下 两 种 方式 可 创建 线性 序列 。 
口 ” 当 采用 np.arange 函数 时 ， 需 要 提供 一 个 起 始点 、 结 束 点 或 数字 ， 以 及 针对 每 次 
JERE step 值 。 如 果 未 提供 step 值 ， 则 默认 值 为 1， 如 图 2.9 所 示 。 


In [14]: |# Create an array filled with a Linear sequence 
# Starting at @, ending at 20, stepping by 2 
np.arange(start=0, stop=20, step=2) 


Out[14]: array([ Ə, 2, 4, 6, 8, 10, 12, 14, 16, 18]) 
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当前 示例 调用 了 一 个 序列 ， 其 中 ，start 点 为 0，stop 点 为 20，step 值 为 2。 当 运行 单 
元 时 ， 将 得 到 一 个 NumPy 数组 (起 始 于 0，step 值 为 2) 。 该 过 程 持续 进行 ， 直 至 到 达 
结束 点 。 需 要 注意 的 是 ， 此 处 并 未 包含 结束 点 或 结束 值 。 
口 ” 另 一 种 序列 创建 方法 是 使 用 np.linspace 函数 。 对 此 ， 需 要 提供 一 个 下 限 值 、 一 
个 上 限 值 ， 以 及 二 者 间 均 匀 间 隔 的 数值 的 数量 。 与 图 2.9 中 的 np.arange 函数 不 
同 ， 该 函数 中 指定 了 相应 的 上 限 值 ， 如 图 2.10 所 示 。 


In [15]: 


# Create an array of 2@ values evenly spaced between @ and 1 
np.linspace(®, 1, 29) 


Out[15]: array([e. » ©.05263158, @.10526316, @.15789474, @.21052632, 


@.26315789, @.31578947, @.36842105, @.42105263, @.47368421, 
@.52631579, @.57894737, @.63157895, @.68421053, 0.73684211, 
@.78947368, @.84210526, @.89473684, @.94736842, 1. ]) 


图 2.10 


在 当前 示例 中 ， 我 们 得 到 一 个 0 一 1 的 序列 (包括 1) ; 中间 的 所 有 值 均 是 等 距 的 ， 
共计 20 个 值 。 


2.2.2 数组 的 属性 


NumPy 中 的 数组 包含 了 多 种 属性 , 本 节 将 考查 Python 中 较为 重要 且 经 常 使 用 的 3 个 
属性 。 对 此 ， 首 先 创建 一 个 float 类 型 的 3x4 数组 ， 且 全 部 值 均 为 1， 如 图 2.11 所 示 。 


In [16]: A = np.ones(shape=(3, 4), dtype=float) 
A 


Out [16]: 


图 2.11 


其 中 ， 第 一 个 属性 是 维 数 ， 并 可 通过 A.ndim 属性 查看 数组 的 维度 。 在 当前 示例 中 ， 

数组 的 维 数 为 2。 对 于 shape 来 说 ， 可 采用 A.shape 属性 获取 每 个 维度 中 数值 的 数量 。 具 
体 而 言 ， 第 一 个 维度 包含 了 3 个 数值 ， 第 二 个 维度 中 包含 了 4 个 值 。 最 后 ，size 表示 数组 
中 所 包含 的 全 部 元 素数 量 。 对 此 ，A.size 属性 表示 数组 中 元 素 的 总 体 数量 , 在 当前 示例 中 
WF 12. 
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22.3 数组 中 的 基本 数学 运算 


前 面 在 介绍 NumPy 数组 时 曾 讨 论 了 列表 中 的 distances 和 times 值 ， 下 面 通过 数组 方 
式 执行 一 些 较为 基本 的 数学 运算 。 如 前 所 述 ， 一 种 较 好 的 方法 是 通过 distances 除 以 times 
这 一 方式 计算 speeds。 这 可 视 为 是 一 种 向 量化 操作 ， 并 可 通过 NumPy 数组 予以 实现 。 如 
果 将 speeds 对 象 定义 为 distances/times, NumPy 将 逐个 元 素 地 执行 该 除法 运算 , 即 向 量化 
操作 ， 如 图 2.12 所 示 。 


图 2.12 


当 运 行 单元 格 时 ，Numpy 将 计算 10/0.3、15/0.47 等 ， 进 而 获得 NumPy 数组 中 的 速 
度 向 量 。 另 一 个 操作 示例 则 是 计算 product quantities 与 prices 之 和 。 对 此 ， 可 创建 另 一 个 
名 为 values 的 数组 ， 表 示 product_quantities FEL) prices 之 和 。 随 后 ， 为 了 获取 总 额 ， 可 
将 value 向 量 中 的 所 有 元 素 相 加 ， 如 图 2.13 所 示 。 


In [20]: speeds = distances/times 
speeds 


Out[28]: array([33.33333333, 31.91489362, 30.90909091, 21.66666667, 20. 


B 2.13 


当 运行 代码 单元 时 ， 对 应 的 结果 值 为 13.6 CEH 13*1.2) . 32.5 (EI 5*6.5) 等 ， 这 表 
示 为 向 量 values， 进 而 得 到 总 计 结 果 ， 也 就 是 说 ，values 中 所 有 元 素 之 和 。 这 一 类 操作 
NumPy 予以 实现 ， 如 图 2.14 所 示 。 

下 面 考查 更 为 复杂 的 例子 , 并 创建 男 一 个 向 量 或 NumPy 数组 ,具体 来 说 , x 中 的 start 
值 为 0，stop 值 为 20，step 值 为 2， 如 图 2.15 所 示 。 
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In [21]: values = product_quantities*prices 
total = values.sum() 
print(values) 
total 


[15.6 32.5 6. 


Out[21]: 157.1 
图 2.14 


In [22]: x = np.arange(start=8, stop=20, step=2) 
x 


Out[22]: array([ @, 2, 4, 6, 8, 10, 12, 14, 16, 18]) 
图 2.15 
当 运 行 代码 单元 时 , 将 得 到 一 组 0 一 18 的 数字 。 当 采 用 NumPy 数组 执行 基本 操作 时 ， 
此 类 操作 通常 以 逐个 元 素 的 方式 进行 。 
例如 ， 若 向 当前 向 量 加 1， 相 应 结果 表明 ,原始 数组 中 的 每 个 元 素 均 会 加 1。 类 似 地 ， 
当 向 该 向 量 乘 以 2 时 ， 数 组 的 每 个 元 素 均 会 乘 以 2， 如 图 2.16 所 示 。 据 此 ， 我 们 可 执行 
诸如 加 、 减 、 乘 、 除 这 一 类 基本 的 数学 运算 。 


: array([ 1, 3, 5, 7, 9, 11, 13, 15, 17, 19]) 


: array([ ð, 4, 8, 12, 16, 20, 24, 28, 32, 36]) 


: | x/2 


2 array(O.5 1., 2g; Suis Avy. Sis Cry, Fey So 95.) 


图 2.16 
除 此 之 外 ，NumPy 还 提供 了 一 个 通用 函数 ， 作 为 一 类 数学 函数 ， 该 函数 可 在 数组 中 
加 以 使 用 ， 且 以 逐个 元 素 方式 执行 。 例 如 ， 如 果 需 要 知晓 x 中 每 个 元 素 的 正统 值 ， 抑或 每 
NTCR 指数， 则 可 执行 np.sin(x) 和 mnp.exp(x)。 当 运行 代码 单元 时 ， 将 得 到 如 图 2.17 所 示 
的 结果 。 其 中 ，sin 函数 应 用 于 每 个 元 素 上 。 类 似 地 ， 指 数 函 数 也 同样 应 用 于 每 个 元 素 上 。 
同样 ， 我 们 也 可 以 执行 对 数 和 合并 计算 。 图 2.18 中 显示 了 数组 x+ 的 自然 对 数 和 平 
方 根 计 算 结果 ， 且 均 以 逐个 像素 的 方式 进行 。 


In [26]: 


Out [26]: 


In [27]: 


Out [27]: 


In [28]: 


Out [28]: 


In [29]: 


Out [29]: 
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# Universal functions 
np.sin(x) 


array([ 8. » @.90929743, -@.7568025 , -@.2794155 , @.98935825, 
-@.54482111, -@.53657292, @.99060736, -@.28790332, -@.75098725]) 
np.exp(x) 


array([1.00000000e+90, 7.38905616e+00, 5.4598150Ge+01, 4.03428793e+02, 
2.98095799e+03, 2.20264658e+04, 1.62754791e+05, 1.20260428e+06, 
8.88611052e+06, 6.56599691e+07]) 


图 2.17 


np. log(x+1) 

array([@. , 1.09861229, 1.60943791, 1.94591015, 2.19722458, 
2.39789527, 2.56494936, 2.708502 , 2.83321334, 2.94443898]) 

np.sqrt(x) 


array([@. » 1.41421356, 2. » 2.44948974, 2.82842712, 
3.16227766, 3.46410162, 3.74165739, 4. > 4.24264069]) 


2.2.4 数组 的 常见 操作 


本 节 将 考查 NumPy 数组 的 常见 操作 方式 ， 其 中 涉及 索引 、 切 片 〈slice) MEH. 


1. 数组 的 索引 
索引 机 制 常用 于 获取 、 设 置 数组 元 素 值 。 如 果 希 望 访问 数组 中 的 元 素 ， 则 可 像 Python 
列表 那样 对 其 进行 访问 。 为 了 进一步 考查 每 个 索引 调用 的 执行 方式 , 下 面 首先 通过 np.linspace 


生成 一 个 一 维 数组 ， 如 图 2.19 所 示 。 当 访问 数组 的 第 一 个 元 素 时 ， 对 应 的 索引 为 0。 


one_dim = np.linspace(-@.5, 9.6, 1 
one_dim 


array([-@.5, -@.4, -@.3, -@.2, -@.1, 


图 2.19 


。20 。 
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对 于 基于 0 值 的 索引 ， 可 通过 one dim[0] 运 行 代码 单元 ， 这 将 生成 对 应 于 索引 0 的 


元 素 。 因 此 , 在 当前 数组 中 ， 第 一 个 元 素 为 -0.5。 当 然 ， 也 可 采用 其 他 索引 获取 对 应 的 元 
素 值 。 另 外 ， 如 果 打 算 修改 元 素 值 ， 则 可 通过 索引 获取 对 应 元 素 ， 并 于 随后 执行 赋值 操 
作 。 例 如， 假设 希望 将 索引 为 0 的 向 量 元 素 修改 为 1， 则 可 利用 该 索引 获得 元 素 并 赋予 新 


值 。 


建 - 


在 图 2.20 中 ， 第 一 个 元 素 -0.5 被 修改 为 1。 


: one_dim[@] = 1 
one_dim 


8.6]) 


图 2.20 


相应 地 ， 当 与 二 维 数组 协同 工作 时 ， 需 要 通过 两 个 索引 执行 索引 操作 。 下 面 首先 创 
-个 二 维 数组 。 接 下 来 ， 如 果 希 望 获取 0 行 (索引 为 0) 的 第 4 个 元 素 值 ， 即 3 列 ( 索 
引 为 3) 中 的 第 1 个 元 素 ， 则 可 使 用 two_dim[0,3]， 如 图 2.21 所 示 。 其 中 ,第 1 个 维度 0 


表示 为 行 索引 ， 第 二 个 维度 3 则 表示 为 列 索 引 。 


: | two_dim = np.array([[3, 5, 2, 4], [7, 6, 5, 5], [1, 6, -1, -1]]) 
two_dim 


array([[ 3, 5, 
(7, 6, 5, 
[ 1, 6, -1, 
: two_dim[9,3] 


: 4 


: | two_dim[9,9] = - 
two_dim 


图 2.21 


与 一 维 数组 操作 类 型 , 我 们 也 可 以 修改 二 维 数组 中 的 任意 元 素 值 。 例 如 , 可 将 位 置 (0,0) 


中 的 元 素 值 《 即 0 行 、0 列 中 的 元 素 值 ) 修改 为 -1， 如 下 所 示 。 


two_dim[0,0] = -1 
two_dim 


这 将 把 对 应 的 元 素 值 从 3 修改 为 -1。 


: array([ 1. , -@.4, -@.3, -@.2, -@.1, ©. , 0.1, @.2, 0.3, 0.4, @.5, 
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2. 数组 切片 


这 里 , 切片 (slice) 是 指 在 一 个 较 大 的 数组 中 获取 或 设置 一 个 较 小 的 子 数 组 ， 其 操作 
方式 与 Python 列表 基本 相同 。 为 了 更 好 地 理解 这 一 问题 ， 此 处 再 次 考查 运行 one_dim 代 
码 时 所 使 用 的 数组 。 据 此 ， 如 果 希 望 获取 索引 0 一 5 (不 包括 索引 5) 的 所 有 元 素 ， 则 可 
运行 print(one dim[2,5]) 代 码 单 元 。 类 似 地 ， 若 打算 获得 前 5 个 元 素 ， 则 可 采用 
print(one dim[:5]) (不 包括 索引 5 对 应 的 元 素 ) 。 与 Python 列表 类 似 ， 这 里 也 可 使 用 负 索 
引 。 因 此 ， 如 果 希 望 获得 最 后 5 个 元 素 ， 则 可 使 用 print(one_dim[-5:])， 如 图 2.22 所 示 。 


In [36]: one_dim 


Out[36]: array([ 1. , -80.4, -0.3, -0.2, -0.1, ©. ，6.1， 0.2, 0.3, 0.4， 
@.6]) 


In [37]: print(one_dim[2:5]) 


print(one_dim[:5]) 
print(one_dim[-5:]) 


[-0.3 -0.2 
. -0.4 -6. d 
30.40.50. 


图 2.22 
在 二 维 数组 示例 中 ， 实 际 规则 并 无 变化 ， 但 需要 指定 每 个 维度 上 的 切片 。 在 当前 示 
例 中 ， 如 果 希 望 得 到 数组 中 的 前 4 个 元 素 ， 则 可 使 用 two_dim[:2,:2]。 类 似 地 ， 若 打算 获 
得 全 部 行 中 起 始 的 两 个 元 素 ， 可 使 用 two_dim[:,1:3]， 如 图 2.23 所 示 。 


: two_dim 


: array([[-1， 


: two_dim[:2,:2 


: array([[-1, 


: | two_dim[:,1:3 


Out[40]: array([ 
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此 处 得 到 起 始 行 和 索引 为 2 的 行 ， 对 于 列 来 说 ， 情 况 也 基本 一 致 。 类 似 地 ， 图 2.23 
中 还 显示 了 数组 所 有 行 中 的 前 两 个 元 素 。 

3. 重 构 数组 

数组 的 重 构 是 指 将 数组 从 一 个 维度 调整 至 另 一 个 维度 ， 如 一 维 数组 至 二 维 数组 、 一 
维 数组 至 三 维 数组 、 三 维 数组 至 二 维 数组 等 。 下 面 讨论 如 何 对 数组 进行 重 构 ， 此 处 将 再 
次 使 用 到 前 述 一 维 数组 。 如 果 和 希望 将 数组 重 构 或 转换 为 一 个 4x3 二 维 数组 ， 则 可 使 用 
reshape() 方 法 ， 如 图 2.24 所 示 。 


: one_dim 


: array([-@.5, -@.4, -0.3, 
®.6]) 


: one_dim.reshape(4,3 


2]: array([ 


[= 
Is 
[ 
[ 


图 2.24 
当 运 行 上 述 代码 时 ， 包 含 12 个 元 素 的 一 维 数组 被 调整 为 4 行 3 列 的 二 维 数组 。 除 此 
之 外 ， 还 可 指定 其 他 维度 ， 如 2x6， 甚 至 还 可 指定 三 维 数组 ， 如 2x2x3。 
O iz: 
本 书 仅 涉及 一 维和 二 维 数组 ， 因 此 读者 不 必 担 心 更 高 的 维度 


在 二 维 数组 示例 中 ， 若 打算 将 其 转换 为 一 维 数组 ， 则 可 采用 flatten0 方 法 ， 如 图 2.25 
所 示 。 


: two_dim 


: array([[-1 
[ 7 
[ 1 


: two_dim.flatten() 


: array([-1， 5， 
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当 运行 Hatten() 方 法 时 ， 二 维 数组 将 被 转换 为 一 维 数组 。 


2.3 使 用 NumPy 进行 模拟 


本 节 讨 论 如 何 运用 NumPy 解决 些 实际 问题 ， 主 要 涉及 两 个 模拟 示例 。 其 间 我 们 还 将 
学 习 与 数组 处 理 相关 的 其 他 操作 。 


2.3.1 投掷 硬币 


这 里 我 们 将 使 用 NumPy 模拟 投掷 硬币 。 为 此 , 可 使 用 NumPy 随机 子 模 块 中 的 randint 
函数 。 该 函数 接收 low. high 和 size 参数 ， 这 也 是 希望 输出 的 随机 整数 的 范围 。 在 当前 示 
例 中 ， 输 出 结果 为 0 或 1。 相应 地 ，low 值 为 0，high 值 为 2 〈 但 不 包含 2) 。 另 外 ，size 
参数 定义 了 和 希望 输出 的 随机 整数 的 数量 ， 即 投掷 硬币 的 次 数 ， 对 应 代码 如 图 2.26 所 示 。 


图 2.26 


此 处 , 0 表示 硬币 的 正面 ,1 表示 硬币 的 背面 ; 另外 , 由 于 仅 投 掷 一 枚 硬币 ， 因 而 size 
值 为 1。 每 次 运行 该 模拟 程序 时 ， 将 会 看 到 不 同 的 输出 结果 。 

下 面 考查 另 一 种 模拟 情形 ， 即 一 次 投掷 10 枚 硬币 。 相 应 地 ， 需 要 将 最 后 一 个 参数 值 
调整 为 size=10。 为 了 得 到 硬币 正面 的 总 计 结 果 ， 需 要 对 experiment 输出 数组 的 所 有 元 素 
求 和 ， 对 应 代码 如 图 2.27 所 示 。 


: np.random.randint(low=8, high=2, size=1 


: array([@]) 


: experiment = np.random.randint(@,2, size=10) 
print(experiment) 
print(experiment.sum() 


reeleleeelll] 
4 


图 2.27 


每 次 运行 该 模拟 程序 时 ， 可 以 看 到 随机 输出 结果 。 假 设 希 望 执行 该 试验 10000 次 ， 
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这 可 通过 NumPy 方便 地 予以 实现 。 下 面 创建 一 个 coin matrix 模拟 程序 ， 并 查看 一 次 投 
H 10 枚 硬币 时 正面 数量 的 分 布 状态 。 对 此 ， 我 们 将 使 用 相同 的 函数 randint， 以 及 相同 
的 参数 0 和 2; 但 size 将 被 赋予 一 个 二 维 数组 ， 因 而 有 size=(10000,10)。 考 虑 到 无 法 在 
屏幕 上 查看 到 10000 行 的 矩阵 , 因而 这 里 设置 一 个 较 小 的 矩阵 显示 coin_matrix[:5,:] 输 出 
结果 。 

当 运 行 该 代码 单元 时 ， 将 会 看 到 矩阵 的 前 5 行 数 据 ， 且 每 次 运行 该 模拟 程序 时 ， 结 
果 也 将 有 所 不 同 。 
O 注意: 

这 里 ， 前 5 行 数据 表示 10 KA PIL 10000 次 后 (实际 矩阵 包含 了 10000 47) 的 前 
5 个 结果 


当 计 算 每 次 试验 中 硬币 正面 的 次 数 时 ， 可 使 用 sum 属性 。 但 在 当前 示例 中 ， 我 们 希 
望 对 所 有 行 求 和 。 当 在 NumPy 中 对 全 部 行 执 行 求 和 计算 时 ， 可 使 用 附加 参数 axis， 并 设 
置 axis=1。 这 将 生成 一 个 数组 ， 其 中 包含 了 每 次 试验 中 得 到 多 少 次 正面 的 计数 结果 ， 如 
图 2.28 所 示 。 


: counts = coin_matrix.sum(axis=1) 
print(counts[:25]) 
print(counts.mean()) 
print(np.median(counts) ) 
print(counts.min(), counts.max()) 
print(counts.std()) 


[547862756864662565633467 6] 
4.9893 

5.0 

@ 10 

1.5791724130062557 


图 2.28 


在 图 2.28 中 , 我 们 获取 了 数组 中 的 前 25 个 元 素 , 其 中 包含 了 每 次 试验 中 硬币 正面 的 
数量 。 此 外 ，NumPy 还 定义 了 一 些 数组 ， 并 涵盖 了 一 些 有 用 的 方法 执行 统计 计算 ， 如 均 
值 、 中 值 、 最 小 值 、 最 大 值 和 标准 偏差 。 当 使 用 mean() 方 法 时 ， 将 得 到 全 部 试验 结果 的 
均值 或 硬币 正面 的 平均 值 。median0 方 法 将 生成 试验 中 硬币 全 部 正面 计数 的 中 值 。 除 此 之 
外 ， 还 可 使 用 min0 和 max() 方 法 获得 正面 的 最 小 和 最 大 数量 。std() 方 法 将 计算 数组 计数 
的 标准 偏差 。 
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O 注意 : 
该 试验 每 次 的 输出 结果 均 有 所 不 同 ， 因 此 ， 读 者 不 必 为 显示 结果 的 差异 而 感到 纠结 。 


如 果 希 望 了 解 硬币 正面 数量 的 分 布 状态 ， 则 可 使 用 bincount 函数 。 当 运行 代码 单元 
时 ， 将 得 到 一 个 数值 数组 ， 表 示 试 验 中 硬币 的 正面 数量 ， 且 位 于 0 一 10， 如 图 2.29 所 示 。 


In [49]: np.bincount(counts) 


Out[49]: array([ 10, 109, 428, 1194, 2051, 2427, 2097, 1157, 431, 
dtype=int64) 


图 2.29 


此 外 ， 代 码 还 包含 了 硬币 正面 数量 分 布 的 数值 细节 信息 。 可 以 看 到 ， 其 中 包含 0 次 
正面 10 次 ，1 次 正面 109 次 (以 及 对 应 的 百分比 》， 等 等 ， 如 图 2.30 所 示 。 


unique_numbers arange(@,11) 
observed_times bincount(counts) 
print(" ==\n" 
for n, count in zip(unique_numbers, observed_times): 
print("{} heads observed {} times ({:0.1f}%)".format(n, count, 100*count/20ea 


observed 10 times (0.5%) 
observed 109 times (5.5%) 
observed 428 times (21.4%) 
observed 1194 times (59.7%) 
observed 2051 times (102.5%) 
observed 2427 times (121.3%) 
observed 2097 times (104.8%) 
observed 1157 times (57.9%) 
observed 431 times (21.6%) 
observed 82 times (4.1%) 

© heads observed 14 times (0.7%) 


BI 2.30 


2.3.2 ”模拟 股票 收益 


本 节 讨 论 来 自 金融 领域 的 一 个 示例 ， 并 使 用 matplotlib NumPy 库 。 假 设 我 们 想 利用 
正 态 分 布 对 股票 的 收益 进行 建 模 。 这 里 , 可 使 用 normal 函数 生成 具有 正 态 分 布 的 随机 数 。 
normal 函数 中 设置 了 loc BAL. scale 参数 (也 称 作 标准 偏差 ) ， 以 及 加 载 随机 值 的 参数 。 
另外 ，random 参数 表示 营业 年 度 的 天 数 。 


Sm 
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当 运 行 代码 单元 时 ， 将 得 到 一 个 数值 数组 ， 表 示 前 20 天 的 收益 。 除 此 之 外 ， 也 会 得 
到 一 些 负 收益 和 一 些 正 收益 ， 就 像 在 正常 的 股票 市 场 中 一 样 。 假 设 initial price 为 100， 当 
计算 接 下 来 几 天 中 的 全 部 价格 时 ， 可 以 使 mnitial price 乘 以 收益 累积 和 的 指数 函数 。 图 2.31 
显示 了 基于 NumPy 的 计算 过 程 ， 以 及 相应 的 绘制 结果 。 


plt.plot(price) 
plt.grid(); 


o 5% 100 


In [57]: returns = np.random.normal(0.001, 0.02, 250) 
initial_price = 100 
price = initial_price*np.exp(returns.cumsum()) 
plt.plot (price) 
plt.grid(); 


图 2.31 
O zz: 
为 了 更 好 地 理解 上 述 程 序 ， 建 议 读者 学 习 一 点 金融 知识 。 当 前 目标 并 不 是 在 金融 领 
域 中 执行 模拟 过 程 ， 而 是 读者 展示 NumPy 的 简单 性 及 其 相关 示例 。 
在 当前 示例 中 ， 股 票 价格 始 于 100， 图 2.31 中 模拟 了 其 演变 过 程 。 对 于 相同 的 代码 ， 
每 次 运行 代码 单元 时 均 会 得 到 不 同 的 模拟 结果 。 
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2.4 本 章 小 结 


本 章 讨 论 了 NumPy 库 ， 旨 在 执行 向 量化 操作 。 此 外 ， 我 们 还 介绍 了 NumPy 数组 ， 
这 也 是 NumPy 中 的 主要 对 象 ， 其 中 涉及 数组 的 构建 、 各 种 属性 、 基 本 的 数学 运算 ， 以 及 
对 数组 的 操作 方式 。 随 后 ， 本 章 还 讲述 了 如 何 利 用 NumPy 执行 简单 的 模拟 操作 。 

第 3 章 将 讨论 pandas， 这 也 是 Python 中 较为 常用 的 数据 分 析 库 之 一 。 
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本 章 将 讨论 pandas 库 ， 涉 及 该 库 的 一 些 功能 ， 及 其 在 Python 数据 科学 中 的 重要 性 。 
此 外 ， 本 章 还 将 介绍 pandas 库 中 的 主要 对 象 ， 即 Series 和 DataFrame， 包 括 其 数据 分 析 
时 的 各 项 属性 和 操作 。 同 时 ， 我 们 还 将 考查 相关 示例 ， 进 而 通过 真实 的 数据 集 了 解 如 何 
使 用 该 库 中 的 对 象 ， 并 回答 与 数据 集 相关 的 一 些 简单 问题 。 本 章 主要 涉及 以 下 主题 。 

Q pandas 库 。 

Q pandas 的 操作 。 

口 ”通过 示例 回答 一 些 与 数据 集 相关 的 简单 问题 。 


3.1 pandas 库 


作为 Python 库 ，pandas 提供 了 快速 、 灵 活 的 数据 结构 ， 并 可 与 关系 型 或 表格 数据 协 
同 工 作 ， 如 SQL 或 电子 表格 ;对 于 真实 的 数据 分 析 操 作 来 说 ，pandas 也 是 一 类 较为 基础 
的 高 层 构 建 块 。 我 们 可 通过 下 列 语句 导入 pandas 库 。 

#The importing convention 

import pandas as pd 

pandas 适用 于 以 下 场景 。 

口 表格 数据 中 包含 了 不 同类 型 的 列 ， 如 SQL 数据 库 或 Excel 电子 表格 中 的 数据 。 
口 有 序 或 无 序 时 序数 据 。 

O ”数据 位 于 行 和 列 中 ， 其 组 织 方式 类 似 于 矩阵 。 

口 ”使 用 观测 数据 或 其 他 类 型 的 统计 数据 。 

pandas 中 包含 了 以 下 两 种 主要 的 数据 结构 。 

口 Series: 一 维 数据 结构 。 

口 DataFrame: 二 维 数据 结构 。 

它们 可 以 处 理 不 同 领 域 中 的 大 多 数 场景 ， 如 金融 、 统 计 学 、 社 交 科学 ， 以 及 大 多 数 
工程 和 商业 领域 。pandas 构建 于 NumPy 之 上 ,并 通过 其 他 第 三 方 库 实现 了 与 科学 计算 环 
境 的 良好 集成 。 除 此 之 外 ， 我 们 还 可 将 pandas 库 与 其 他 库 结合 使 用 ， 如 本 章 所 讨论 的 可 
视 化 库 。pandas 主要 包含 以 下 特征 。 
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OQ ”对 于 浮 点 和 非 浮 点 型 数据 ， 可 以 方便 地 处 理 遗 失 数 据 。 

O ”可 方便 地 插入 、 删 除 DataFrame 和 更 高 维度 对 象 中 的 数据 。 

Q ”数据 自动 对 齐 。 

口 通过 功能 分 组 ， 实 现 功 能 强大 、 灵 活 的 数据 聚合 和 转换 。 

D 轻松 地 将 不 同 索 引 的 Python 和 NumPy 数据 结构 转换 为 DataFrame 对 象 。 

QO 基于 标签 的 智能 切片 机 制 、 良 好 的 索引 机 制 ， 以 及 大 型 数据 集 的 子 集 划 分 。 

D ”较为 直观 的 数据 集 的 合并 和 连接 机 制 。 

QO 轴 的 层次 标记 。 

口 健壮 的 IO 工具 ， 用 于 从 平面 文件 、Excel 文件 、 数 据 库 和 超 高 速 HDFS 格式 保 
存 /加 载 数据 。 

O 事件 序列 特定 功能 ， 包 括 日 期 范围 生成 和 频率 转换 、 移 动 窗口 统计 、 移 动 窗口 


线性 回归 、 日 期 变化 、 灌 后 等 。 
3.1.1 导入 pandas 中 的 对 象 


pandas 中 包含 了 以 下 两 种 较为 重要 的 对 象 。 

口 Series. 

DD DataFrame. 

当 利用 Python 并 在 数据 科学 计算 中 使 用 pandas 时 , 首先 需要 导入 NumPy 和 数学 库 ， 
对 应 代码 如 下 。 

import numpy as np 

import matplotlib.pyplot as plt 

smaplotlib inline 


接 下 来 ， 当 与 pandas 协同 工作 时 ， 可 利用 标准 的 语句 导入 pandas 库 ， 如 下 所 示 。 


import pandas as pd 


3.1.2 Series 


pandas 中 的 Series 数据 结构 定义 为 一 维 标记 数组 ， 该 数据 结构 主要 包含 以 下 特征 。 
O Series 中 的 数据 可 以 是 任意 类 型 ， 如 整 型 、 字 符 串 、 浮 点 数 、Python 对 象 等 。 
O 数据 本 质 上 是 同 质 的 ， 或 者 所 有 数据 必须 是 同一 类 型 的 。 

OQ ”数据 一 般 包含 一 个 索引 , 进而 生成 如 图 3.1 所 示 的 数据 结构 字典 和 Python 列表 ， 
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或 者 NumPy 数组 类 型 属性 。 


图 3.1 


图 3.1 展示 了 pandas Series 的 可 视 化 示例 , 可 以 看 到 , 每 个 数据 点 均 与 一 个 索引 关联 。 
3.1.3 ”创建 pandas 中 的 Series 


对 此 , 存在 多 种 方式 可 创建 pandas Series 对 象 。 以 下 内 容 列举 了 较为 常见 的 集中 方法 。 

口 ” 从 列表 中 进行 创建 。 

口 ” 从 字典 中 进行 创建 。 

O 从 NumPy 数组 中 进行 创建 。 

O ”从 外 部 数据 源 中 进行 创建 ， 如 一 个 文件 。 

下 面 考查 如 何 从 列表 、 字 典 和 NumPy 字典 中 创建 Series。 对 此 ， 首 先 需 要 定义 数据 ， 
并 作为 列表 对 其 进行 索引 。 此 处 生成 了 一 个 数值 列表 ， 并 将 其 命名 为 temperatures 另 一 
个 数值 列表 则 命名 为 days。 当 从 数据 中 创建 一 个 Series 时 ， 可 使 用 pd.Series(temperature, 


index=days) 构 造 方法 ， 如 图 3.2 所 示 。 


。32 。 
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In [3]: |# define the data and index as Lists 
temperature = [33, 19, 15, 89, 11, -5, 9] 
days = ['Mon','Tue',‘Wed',‘Thu','Fri','Sat','Sun'] 


# create series 
series_from_list = pd.Series(temperature, index=days) 
series_from_list 


int64 


图 3.2 


当 运 行 上 述 代 码 时 , 可 以 看 到 , 每 个 数值 均 与 各 自 的 索引 进行 关联 。 随 后 , 将 从 Python 
字典 中 创建 一 个 Series。 在 Python 字典 中 ， 一 般 包 含 了 与 对 应 数值 相关 联 的 键 。 因 此 ， 
当 从 字典 中 生成 一 个 pandas Series 时 ， 全 部 键 将 用 作 索 引 ， 而 对 应 值 则 表示 为 与 该 索引 
所 关联 的 Series 中 的 数值 。 根 据 图 3.2 中 所 示 数 据 ， 可 定义 一 个 my_dict 字典 ， 其 中 , 日 
期 (以 星期 几 表示 ) 将 与 温度 关联 。 随 后 ， 将 该 字典 传递 至 pd.Series(my_dict) 构 造 方法 
中 ， 如 图 3.3 所 示 。 


In [4]: 


m 
里 


# from a dictionary 

my_dict = {'Mon': 33, ‘Tue’: 19, "Wed': 
series from dict = pd.Series(my dict) 
series _from_dict 


Mon 33 
Tue 19 
Wed 15 
Thu 89 
Fri 11 
Sat aS 
Sun 9 


dtype: int64 


图 3.3 
然 日 期 (以 星期 几 表示 〉 呈 无 序 状态 一 一 Pyhton 字典 中 不 包含 隐 含 的 顺序 关系 ， 


但 每 一 


天 均 与 自身 的 温度 值 相关 联 。 例 如 ，Ffri 与 11 关联 、Mon 与 33 关联 等 。 


第 3 章 数据 分 析 库 pandas “33 。 


接 下 来 讨论 如 何 从 NumPy 数组 中 创建 pandas Series。 对 此 ， 首 先 利 用 np.linspace eh 
数 定义 my _array 对 象 ; 随后 ， 将 该 对 象 传递 至 pd.Series 构造 方法 中 ， 该 方法 根据 所 定义 
的 NumPy 数组 创建 一 个 Series， 如 图 3.4 所 示 。 


In [5]: # From a numpy array 
my_array = np.linspace(@,10,15) 
series_from_ndarray = pd.Series(my_array) 
series_from_ndarray 


86866666 
714286 
428571 
142857 
857143 
571429 
285714 
000000 
714286 
428571 
142857 
857143 
571429 
285714 

10.0000090 
dtype: float64 


ð. 
ð. 
1. 
2. 
2. 
3. 
4. 
5. 
5. 
6. 
7. 
7. 
8. 


wo 


图 3.4 


鉴于 尚未 指定 任何 索引 ，pandas 将 自动 生成 整数 索引 ， 该 索 位 于 0 一 元 素数 量 减 1。 
当前 示例 中 包含 了 15 个 元 素 ， 因 而 索引 最 大 值 为 14。 
另外 ,还 可 通过 pandas Series 执行 向 量化 操作 ， 这 与 NumPy 数组 类 似 。 有 具体 来 说 ， 如 
果 在 Series 上 执行 某 项 操作 ， 那 么 ， 相 同 操作 将 应 用 于 该 Series 中 的 每 个 元 素 ， 如 图 3.5 
所 示 。 
在 图 3.5 F, Series 乘 以 2, 也 就 是 说 , 其 中 的 每 个 元 素 均 乘 以 2。 再 次 , 代码 将 Series 
加 2， 那 么 ， 其 中 的 每 个 元 素 均 会 加 2。 类 似 地 ， 还 可 执行 其 他 类 型 的 数学 运算 ， 甚 至 可 
使 用 NumPy 中 的 通用 函数 。 对 此 ， 我 们 采用 NumPy 中 的 数学 函数 np.exp 计算 Series 的 
指数 。 当 运行 代码 时 ， 将 会 看 到 包含 相同 索引 以 及 最 新 指数 值 的 pandas Series. 
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In [59]: 


#Vectoriz 
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ed operations also work in pandas Series 


2*series from list 


Out[59]: Mon 


In [60]: 


Tue 
Wed 
Thu 
Fri 
Sat 
sun 
dtype: 


Out[6@]: Mon 


In [61]: 


Tue 
Wed 
Thu 
Fri 
Sat 
Sun 
dtype: 


6 
3 
3 
17 
2 
-1 
a 
in 


35 
21 
17 
91 
13 
-3 
a4. 
in 


6 
8 
6 
8 
2 
9 
8 
t64 


#Vectorized operations also work in pandas Series 
series from list + 2 


t64 


#Vectorized operations also work in pandas Series 


np.exp(series_from_list 


Out[61]: Mon 


Tue 
Wed 
Thu 
Fri 
Sat 
Sun 
dtype: 


3.1.4 DataFrame 


HODUNPWREN 


1 


»146436e+14 
«784823e+08 
+2690172+06 
+489613e+38 
+987414e+04 
+ 737947e-03 
+ 103084e+03 


oat64 


DataFrame 定义 为 一 种 二 维 标记 数据 结构 ， 且 对 应 列 可 包含 不 同 的 数据 类 型 。pandas 
以 于 微软 的 Excel 电子 表格 或 SQL 表 。 其 中 包含 了 两 个 索引 ， 分 别 对 应 于 


DataFrame 类 


TRI 


图 


类 


和 列 索 
3.6 中 


引 ， 如 图 3.6 所 示 。 


包含 了 两 个 索引 ， 这 里 ， 列 与 Dates、Tokyo 等 关联 ; 而 行 则 与 INDEX 进行 
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Paris Mumbai 


3.1.5 创建 pandas DataFrame 


DataFrame 包含 多 种 构建 方式 ， 其 中 较为 常见 且 重 要 的 方法 是 从 某 个 文件 中 创建 
DataFrame。 有 具体 来 说 ， 可 通过 以 下 方式 生成 DataFrame。 
O 一 维 ndarrays 字典 、 列 表 、 字 典 或 Series。 
口 二 维 numpy.ndarray。 
O TEXT. CSV, Excel 文件 或 数据 库 。 

下 面 从 真实 的 数据 集中 创建 DataFrame， 对 应 的 数据 集 涉及 人 力 资源 、 人 员 流 失 、 性 
能 等 方面 的 数据 。 读 者 可 访问 https://www.ibm.com/communities/analytics/watsonanalytics- 
blog/hr-employee-attrition/ 以 获取 此 类 数据 。 


Oz: 
KF pandas， 读 者 可 直接 从 互联 网 上 下 载 相关 数据 。 如 果 对 应 文件 位 于 URL 中 ， 则 
可 将 该 URL 保存 至 Python 字符 串 中 ,并 利用 pandas 44 read_excel 函数 直接 创建 DataFrame。 


考虑 到 将 从 Excel 文件 中 生成 DataFrame, 因而 该 过 程 会 涉及 一 些 具 体 的 参数 。 其 中 ， 
第 一 个 参数 是 io， 并 指定 了 文件 的 位 置 ; 第 二 个 参数 sheetname 定义 了 要 从 Excel 文件 中 
读 取 的 表 ; 最 后 一 个 参数 index_col 则 表示 所 使 用 的 索引 ， 如 图 3.7 所 示 。 
其 中 ， 定 义 了 file url 变量 表示 文件 的 位 置 。 随 后 ， 即 可 创建 DataFrame 并 将 其 命名 
为 data。 
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In [7]: file_url = "https: //community.watsonanalytics.com/wp-content/uploads/2015/03/WA_F 


In [8]: data = pd.read_excel(io=file_url, sheetname=@, index_col='EmployeeNumber' ) 


图 3.7 


3.1.6 剖析 DataFrame 


DataFrame 由 以 下 3 部 分 内 容 构成 。 

Q 索引 。 

Q 4%. 

Q 数据 。 

通过 访问 index 和 columns 属性 ， 可 分 别 访问 行 和 列 标记 ， 如 图 3.8 所 示 。 


In [9]: data.columns 


Qut[9]: Index(['Age', 'Attrition', 'BusinessTravel', 'DailyRate', 'Department', 
'DistanceFromHome', ‘Education’, 'Educationfield', 'EmployeeCount', 
'EnvironmentSatisfaction', 'Gender', 'HourlyRate', 'JobInvolvement', 
'JobLevel', 'JobRole', 'JobSatisfaction', ‘Maritalstatus', 
'MonthlyIncome', 'MonthlyRate', 'NumCompaniesWorked', 'Over18', 
'OverTime', 'PercentSalaryHike', 'PerformanceRating', 
'RelationshipSatisfaction', ‘StandardHours', 'StockOptionLevel', 
'TotalWorkingYears', 'TrainingTimesLastYear', 'WorkLifeBalance', 
'YearsAtCompany', 'YearsInCurrentRole', 'YearsSinceLastPromotion', 
"YearsWithCurrManager' ], 
dtype='object') 


In [10]: data.index 
Out[16]: Int64Index([ 1, 25 4, 5, 5 8, 40). Ws 49, w 
2054, 2055, 2056, 2057, 2060, 2061, 2962, 2064, 2065, 2068], 
dtype="int64", name="EmployeeNumber', length=147e) 
In [11]: data.values 
Out[11]: array([[41, 'Yes', 'Travel_Rarely', ..., 4, ©, 5], 
[49, 'No', 'Travel_Frequently', ..., 7, 1, 7], 
[37, 'Yes', ‘Travel_Rarely’, ..., ©, ©, @], 
nis 
[27, 'No', 'Travel_Rarely', ..., 2, @, 3], 


[49, 'No', ‘Travel_Frequently', ..., 6, @, 8], 
[34, 'No', ‘Travel_Rarely', ..., 3, 1, 2]], dtype=object) 


图 3.8 


使 用 columns 属性 将 生成 全 部 列 名 ; 类 似 地 ， 使 用 index 属性 将 生成 索引 。 最 后 ， 利 
用 value 属性 将 生成 DataFrame 中 的 数值 ， 并 以 NumPy 数组 形式 予以 呈现 。 
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3.2 pandas 操作 


pandas 中 存在 多 种 操作 方法 ， 本 节 主 要 考查 一 些 较为 常见 的 操作 。 
3.2.1 检查 数据 


当 从 文件 中 加 载 或 创建 DataFrame 时 ， 首 先 需要 检查 加 载 后 的 数据 。 对 此 ， 存 在 两 
种 相关 方法 ， 即 head 和 tail。 
其 中 ，head 方法 将 显示 前 5 行 数据 ， 如 图 3.9 所 示 。 


In [12]: data.head() 


Out[12]: 
Age Attrition BusinessTravel DailyRate Department DistanceFromHome Edi 


EmployeeNumber 


1 Travel_Rarely Sales 


Research & 


2 Travel_Frequently Development 


Research & 


4 Travel_Rarely Development 


Research & 


5 Travel_Frequently Development 


Research & 


7 Travel_Rarely Development 


5 rows x 34 columns 


图 3.9 
可 以 看 到 ， 当 运行 data.head0) 方 法 时 ， 图 3.9 中 显示 了 前 5 行 、34 列 数据 。 
当 考 查 最 后 5 行 数据 时 ， 可 采用 tail 方法 。 当 运行 data.tail0) 方 法 时 ， 图 3.10 显示 了 
最 后 5 行 数据 。 通 过 上 述 两 种 方法 ， 可 确保 数据 已 被 正确 地 加 载 。 


3.2.2 ”数据 的 选取 、 添 加 和 删除 


我 们 可 将 DataFrame 视 为 一 个 Series 字典 ， 其中， 每 列 类 似 于 一 个 pandas Series， 并 
采用 与 字典 对 象 相同 的 访问 方式 访问 该 Series。 相 应 地 ,可 将 DataFrame 看 作 是 一 个 索引 
Series 对 象 字典 ， 列 的 获取 、 设 置 和 删除 操作 与 字典 保持 一 致 。 下 面 考 查 几 个 相关 示例 。 


Sn 


要 Python 数据 分 析 师 修 炼 之 首 


假设 需要 访问 DataFrame 中 的 Age 列 ， 对 此 ， 需 要 编写 相应 的 方法 并 指明 所 需 访 问 的 列 
名 称 ， 如 图 3.11 所 示 。 


In [13]: data.tail() 


Out[13]: 
Attrition BusinessTravel DailyRate Department DistanceFromHome Edi 


EmployeeNumber 


Research & 


Fi 
2061 Travel_Frequently en 


Research & 


2062 Travel_Rarely Development 


Research & 
2064 Travel_Rarely De 
2065 Travel_Frequently Sales 


Research & 


2068 Travel_Rarely Doctor 


5 rows x 34 columns 


FA 3.10 


In [14]: | # Getting one column: .head() is just int the first 5 values 
data['Age'].head() 


Out[14]: EmployeeNumber 


2 
4 
5 
7 
Name: Age, dtype: int64 


In [15]: # Getting more than one column 


data[['Age', ‘Gender’, 'YearsAtCompany']].head() 


Out [15]: 
Age Gender YearsAtCompany 


EmployeeNumber 


Female 
Male 
Male 

Female 


Male 


图 3.11 


其 中 ， 当 执行 data['Age'].head() 和 data[['Age', 'Gender', 'YearsAtCompany']].head0 方 法 
时 ， 将 从 DataFrame 中 所 指定 的 列 中 获取 前 5 行 。 
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O za: 
.head() 方 法 用 于 避免 显示 DataFrame 中 的 所 有 行 ， 因 为 这 是 一 个 太 长 的 列表 。 


当 向 DataFrame 中 添加 一 列 时 ， 可 通过 data['AgeInMonths'] = 12*data['Age'] 方 法 生 
一 列 ， 如 图 3.12 所 示 。 


J 


In [16]: # Adding a column 
data['AgeInMonths'] = 12*data['Age'] 
data[ ‘AgeInMonths'].head() 


Out[16]: EmployeeNumber 
1 492 
2 588 
4 444 
5 396 
7 324 
Name: AgeInMonths, dtype: int64 


FA 3.12 


当前 ， 该 列 并 不 存在 于 DataFrame 中 ， 但 通过 执行 上 述 方法 ， 新 列 AgeInMonths 将 
被 添加 至 DataFrame 中 。 

相应 地 , 一 种 方式 是 可 采用 del 语句 删除 DataFrame 中 刚刚 创建 的 列 ; 另 一 种 方式 是 
使 用 drop0 方 法 从 DataFrame 中 删除 列 。 当 采用 drop0 方 法 时 ， 可 传递 希望 删除 的 列 。 如 
果 打 算 删 除 列 ， 则 可 指定 axis=1。 参 数 inplace 则 表示 就 地 调整 数据 对 象 ， 同 时 希望 这 一 
修改 行为 持久 化 于 当前 数据 结构 中 。 图 3.13 显示 了 上 述 各 项 操作 。 


17]: | # Deleting a column 
del data['AgeInMonths'] 
# the drop method can also be used 
data.drop('EmployeeCount', axis=1, inplace=True) 


data.columns 


Index(['Age', ‘Attrition’, 'BusinessTravel', 'DailyRate', ‘Department’, 
"DistanceFromHome', ‘Education’, 'EducationField', 
‘EnvironmentSatisfaction', ‘Gender’, ‘HourlyRate’', ‘JobInvolvement', 
"JobLevel', ‘JobRole', 'JobSatisfaction', 'MaritalStatus', 
"MonthlyIncome', 'MonthlyRate', ‘'NumCompaniesWorked', ‘Over18', 
“OverTime', 'PercentSalaryHike', 'PerformanceRating', 
"RelationshipSatisfaction', 'StandardHours', 'StockOptionLevel', 
'TotalWorkingYears', 'TrainingTimesLastYear', 'WorkLifeBalance', 
"YearsAtCompany", ‘'YearsInCurrentRole', 'YearsSinceLastPromotion', 
"YearswWithCurrManager'], 
dtype='object') 


图 3.13 
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当 再 次 考查 数据 列 时 ， 可 以 看 到 ，EmployeeCount 已 被 删除 。 


3.2.3 DataFrame 切片 


与 NumPy 中 的 Series 类 似 ， 我 们 也 可 以 从 pandas Series 和 DataFrame 中 获取 切片 ， 
并 可 在 Series 和 DataFrame 中 使 用 相同 的 符号 ， 如 图 3.14 所 示 。 


In [19]: data['BusinessTravel'][10:15] 


Out[19]: EmployeeNumber 
14 Travel_Rarely 
15 Travel_Rarely 
16 Travel_Rarely 
18 Travel_Rarely 
19 Travel_Rarely 
Name: BusinessTravel, dtype: object 


data[10:15] 


Age Attrition BusinessTravel DailyRate Department DistanceFromHome Educ 


EmployeeNumber 


Travel_Rarely 
Travel_Rarely 
Travel_Rarely 
Travel_Rarely 


Travel_Rarely 


5 rows x 33 columns 


图 3.14 


3.2.4 ”基于 标记 的 选择 操作 


比 外 ， 我 们 还 可 根据 标记 执行 选择 操作 ， 这 也 是 为 什么 索引 在 数据 结构 中 如 此 玫 


Research & 
Development 


Research & 
Development 


Research & 
Development 


Research & 
Development 


Research & 
Development 


其 中 ， 源 自 位 置 1O~15 不 包含 15) 的 对 应 数据 被 “切取 ”， 并 显示 于 输出 结果 中 。 


Lx 


的 原因 。 如 果 希 望 从 某 些 特 定 的 员工 中 获取 数据 ， 则 可 使 
selected EmployeeNumbers = [15, 94, 337, 1120] 指 定 需要 获 


H loc 方法 。 首 先 ， 通 过 定义 


区 数据 的 员工 。 因 为 在 这 两 个 
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数据 结构 中 ， 每 个 值 都 与 EmployeeNumber 索引 关联 ， 因 而 可 使 用 该 索引 访问 所 需 数据 ， 
如 图 3.15 所 示 。 


In [21]: selected_EmployeeNumbers = [15, 94, 337, 1128] 


In [22]: data['YearsAtCompany'].loc[selected_EmployeeNumbers] 


Out[22]: EmployeeNumber 


Name: YearsAtCompany, dtype: int64 


FA 3.15 


图 3.15 中 显示 了 源 自 pandas Series 中 的 数据 ， 其 中 包含 了 员工 在 公司 的 工作 年 数 。 
DataFrame 中 也 包含 了 loc 方法 。 如 果 向 DataFrame 中 的 loc 方法 传递 同一 列表 ， 将 
得 到 与 当前 标记 相关 联 的 全 部 数据 ， 如 图 3.16 所 示 。 


In [23]: data.loc[selected_EmployeeNumbers] 


Out[23]: 
Age Attrition BusinessTravel DailyRate Department DistanceFromHome Edi 


EmployeeNumber 


Research & 


15 Travel_Rarely Development 


Research & 


94 Travel_Rarely Development 


Research & 


337 Travel_Frequently Development 


Research & 


1120 Travel_Rarely Development 


4 rows x 33 columns 


In [24]: | # Getting a single value 
data.loc[94, 'YearsAtCompany'] 


Out[24]: 5 


图 3.16 


如 果 和 希望 得 到 DataFrame 中 的 特定 值 或 特定 单元 ， 则 可 向 loc 方法 中 传递 两 个 索引 ， 
即行 索引 和 列 索引 。 除 此 之 外 ， 还 可 利用 iloc 方法 并 通过 位 置 访问 数据 。 
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3.3 数 据 集 


假设 人 力 资 源 总 监 要 求 你 回答 公司 员工 方面 的 一 些 问题 ， 具 体 如 下 。 
数据 集中 按 部 门 划分 有 多 少 名 员工 ? 
司 员工 的 总 体 流 失 率 是 多 少 ? 
公司 员工 的 平均 时 薪 是 多 少 ? 
司 员工 的 平均 工作 年 限 是 多 少 ? 
在 公司 任职 时 间 最 长 的 5 名 员工 是 谁 ? 
员工 整体 满意 度 如 何 ? 


3.3.1 数据 集中 按 部 门 划分 的 员工 数量 


当 查 看 数据 集中 的 部 门 时 ， 可 使 用 data[Department] 语 句 。 随 后 将 得 到 名 为 
Department 的 列 ， 这 表示 为 pandas Series; 对 于 每 名 员工 ， 还 将 看 到 该 员工 所 属 的 部 门 。 
因此 , 当 计 算 pandas Series 中 各 部 门 的 员工 数量 时 , 可 使 用 value_counts0 方 法 , 如 图 3.17 
所 示 。 


OCoooco 


In [25]: data['Department'].value_counts() 


Out[25]: Research & Development 
Sales 
Human Resources 
Name: Department, dtype: int64 


图 3.17 
其 中 ，pandas Series 中 Department 所 对 应 的 数值 采用 表格 方式 予以 显示 。 


3.3.2 ”员工 的 流失 率 


首先 ， 可 使 用 data['Attrition'] 语 句 查 看 数据 集中 的 Attrition 列 。 在 该 列 中 ， 对 应 数据 
表明 员工 是 否 仍 然 在 职 。 对 于 在 职员 工 ，Attrition 等 于 No; 而 离职 员工 的 Attrition 则 
等 于 Yes。 随 后 ， 可 传递 value_counts() 方 法 以 计算 每 种 结果 的 出 现 次 数 。 为 了 得 到 流失 
率 (离职 员工 的 比率 ) ， 可 使 用 附加 参数 normalize=True。 图 3.18 显示 了 当前 操作 所 对 
应 的 代码 。 
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: data[ ‘Attrition’ ].value_counts() 


: No 1233 
Yes 237 
Name: Attrition, dtype: int64 


: data[ ‘Attrition’ ].value_counts(normalize=True) 


: No 0.838776 
Yes 0.161224 
Name: Attrition, dtype: float64 


: attrition_rate = data['Attrition'].value_counts(normalize=True)['Yes'] 
attrition_rate 


: @.16122448979591836 


图 3.18 


， 为 了 获得 整体 流失 率 ， 可 使 用 Yes 索引 中 的 关联 标记 。 因 此 ， 在 图 3.18 F, 
我 们 计算 得 lS Yes 索引 的 数值 ， 即 流失 率 为 16.12%。 


3.3.3 IRR 


pandas Series 中 包含 了 多 种 统计 方法 ，mean() 方 法 便 是 较为 常用 的 方法 之 一 ， 该 方法 
用 于 计算 pandas Series 的 平均 值 ， 如 图 3.19 所 示 。 


In [29]: data['HourlyRate '].mean() 


Out[29]: 65.89115646258563 


图 3.19 


通过 mean() 方 法 ， 可 计算 得 到 变量 HourlyRate 的 平均 值 为 65.89。 
3.3.4 平均 工作 年 限 


为 了 计算 公司 内 员工 的 平均 工作 年 限 ， 可 采用 mean( 方 法 。 除 此 之 外 ， 还 存在 另 一 
种 方法 不 仅 可 计算 平均 值 , 还 可 获得 Series 的 其 他 描述 性 统计 结果 。 具 体 来 说 ,describe() 
方法 可 计算 平均 值 、 标 准 偏差 、 最 小 值 、 最 大 值 和 百分比 ， 如 图 3.20 所 示 。 

从 图 3.20 中 可 以 看 到 ， 公 司 员工 的 平均 工作 年 限 为 7。 因 此 ，describe( 方 法 也 是 一 
种 较为 常用 的 计算 方法 。 
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data['YearsAtCompany '].describe() 


count 1476. 0090909090 
mean - 008163 
std .126525 
min . 000000 
25% . 0000900 
50% . 0000900 
75% . 000000 
max 40 . 00009090 


Name: YearsAtCompany, dtype: float64 


图 3.20 


3.3.5 任职 时 间 最 长 的 员工 


对 于 pandas Series 中 的 数值 排序 ， 可 使 用 sort_values() 方 法 。 默 认 状态 下 ， 该 方法 以 
升序 进行 排序 。 如 果 不 希 望 采用 升序 ， 则 可 将 参数 ascending 设置 为 False。 鉴 于 显示 结 
果 包含 了 全 部 数据 列表 , 因而 , 可 通过 slice 标识 仅 显示 Series 中 的 前 5 个 元 素 , 如 图 3.21 


所 示 。 


In [31]: 


Out[31]: 


EmployeeNumber 


Name: YearsAtCompany, dtype: int64 


data['YearsAtCompany'].sort_values(ascending=False)[:5] 


: data['YearsAtCompany'].sort_values(ascending=False)[:5].index 


: Int64Index([165, 131, 374, 1578, 776], dtype='int64', name='EmployeeNumber' ) 


其 中 使 


图 3.21 


3.3.6 ”员工 的 整体 满意 度 


中 包含 了 一 个 JobSatisfaction 列 ， 用 于 标识 员工 的 满意 度 评 级 ， 其 范围 为 1 一 


4。 下 面 使 


J head() 方 法 来 查看 前 5 个 观察 结果 ， 并 创建 


了 index 方法 获取 员工 编号 ， 并 以 此 识别 在 公司 了 


[ 作 年 限 最 长 的 员工 。 


AFI ? 


中 数字 1 表示 低 了 
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作 满 意 度 ， 值 2 表示 中 等 工作 满意 度 ， 等 等 。 随 后 ， 通 过 pandas Series 中 的 map0 方 法 将 
代码 转换 为 相应 的 类 别 ， 这 将 通过 各 自 的 数值 关联 每 个 键 ， 也 就 是 说 ，1 转换 为 Low，2 
转换 为 Medium, 等 等 。 接 下 来 , 我 们 将 把 该 Series 重新 分 配 至 使 用 map0 方 法 操作 的 Series, 
对 应 代码 如 图 3.22 所 示 。 


In [33]: 


Out[33]: 


In [34]: 


In [35]: 


Out [35]: 


data[ 'JobSatisfaction'].head() 


EmployeeNumber 
4 


2 
3 
3 
2 


1 
2 
4 
5 
7 
N 


lame: JobSatisfaction, dtype: int64 


JobSatisfaction_cat = { 
1: ‘Low’, 
2: 'Medium', 
3: 'High', 
4: ‘Very High’ 
} 


Transform this encodings to meaninful labels 


data['JobSatisfaction'] = data['JobSatisfaction'].map(JobSatisfaction_cat) 
data['JobSatisfaction'].head() 


EmployeeNumber 
1 Very High 
2 Medium 
4 High 
5 High 
7 Medium 
Name: JobSatisfaction, dtype: object 


FA 3.22 


在 图 3.22 中 可 以 看 到 ， 我 们 得 到 了 所 需 的 映射 分 类 。 因 此 ， 当 在 pandas Series 中 执 
行 此 类 转换 时 ，map() 方 法 十 分 有 用 。 下 面 将 通过 value_counts() 方 法 计算 每 个 类 别 的 出 现 
次 数 。 针 对 之 前 提出 的 问题 ， 获 得 标准 化 计数 结果 可 能 更 加 有 用 ， 因 而 可 将 当前 Series 
FELA 100 以 获得 相应 的 百分比 值 ， 对 应 代码 如 图 3.23 所 示 。 

在 当前 数据 集中 ，31% 的 员工 对 自己 的 工作 较为 满意 (Very High) 。 此 外 ， 我 们 还 
可 看 到 其 他 分 类 中 的 百分比 数字 。 
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: data['JobSatisfaction'].value_counts() 


: Very High 459 
High 
Low 
Medium 
Name: JobSatisfaction, dtype: int64 


19¢*data['JobSatisfaction' ].value_counts(normalize=True) 


: Very High 31.224490 
High 30.068027 
Low 19.659864 
Medium 19.047619 
Name: JobSatisfaction, dtype: float64 


图 3.23 
34 进一步 思 


假设 经 过 第 一 轮 问题 之 后 ， 人 力 资源 总 监 还 想 继续 了 解 员工 的 一 些 细节 问题 ， 并 向 
你 分 配 了 一 些 新 的 任务 ， 具 体 如 下 。 
QO ”提交 一 份 员工 名 单 ， 其 中 员工 的 工作 满意 度 较 低 。 
D ”提交 一 份 员 工 名 单 ， 其 中 员工 的 工作 满意 度 与 工作 投入 程度 均 较 低 。 
口 在 以 下 变量 中 ， 通 过 较 低 和 最 高 工作 满意 度 对 员工 进行 比较 : Age, Department 
和 DistanceFromHome. 


3.4.1 低 满意 度 员 工 


为 了 回答 这 一 问题 ， 可 通过 布尔 Series 索引 一 个 Series 或 DataFrame， 这 称 作 掩蔽 
(masking) 或 布尔 索引 。 对 此 ， 首 先 需要 使 用 比较 运算 符 并 利用 data['JobSatisfaction'] == 
Low' 值 比较 pandas Series， 如 图 3.24 所 示 。 
在 上 述 代 码 运行 完毕 后 ， 针 对 每 名 员工 ， 将 得 到 一 个 包含 True 或 False 的 Boolean 
Series. 其中, True 表示 员工 的 JobSatisfaction 值 等 于 Low; False 则 表示 该 值 不 等 于 Low。 
我 们 可 以 利用 该 pandas Boolean Series 索引 男 一 个 对 象 ， 如 Series 或 DataFrame。 当 
使 用 Boolean Series 索引 男 一 个 对 象 时 ， 将 得 到 一 个 新 的 Series 或 DataFrame， 其 中 包含 
了 True 值 的 观察 结果 ， 如 图 3.25 所 示 。 
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data['JobSatisfaction'] == ‘Low 


EmployeeNumber 
False 
False 
False 
False 
False 
False 

True 
False 
False 
False 
False 
False 
False 
False 
False 

True 
False 
False 
False 
False 
False 

True 
False 
False 

True 


图 3.24 


In [43]: data.loc[data['JobSatisfaction'] == 'Low'].index 


Out[43]: Int64Index([ 10, 20, 27, 31, 33, 38, 51, 52, 54, 68, 


1975, 1980, 1998, 2021, 2023, 2038, 2054, 2055, 2057, 2062], 
dtype="int64', name='EmployeeNumber', length=289) 


图 3.25 


因此 ， 如 果 利 用 data.loc[data['JobSatisfaction'] == 'Low'].index 索引 属性 并 通过 当前 
Boolean Series 索引 DataFrame， 将 会 得 到 较 低 JobSatisfaction 值 的 员工 名 单 。 


342 ” 低 工作 满意 度 和 低 工 作 参 与 度 的 员工 


JobInvolvement (工作 参与 度 ) 列 与 JobSatisfaction (工作 满意 度 ) 列 包含 了 相同 的 属 
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性 ， 因 而 包含 了 对 应 的 员工 号 〈 而 非 分 类 ) 。 此 处 ， 首 先 使 用 之 前 应 用 于 JobSatisfaction 
列 上 的 map 转换 ， 如 图 3.26 所 示 。 


In [44]: JobInvolment_cat = { 
1: ‘Low’, 


2: ‘Medium’, 
3: “High, 
4: 'Very High' 


data[ ‘JobInvolvement'] = data['JobInvolvement'].map(JobInvolment_cat) 


图 3.26 
考虑 到 当前 仅 考查 两 列 中 包含 Low 值 的 员工 ， 因 而 可 在 两 个 Boolean Series 上 使 用 
“有 &” 逻 辑 运 算 符 ， 进 而 得 到 JobSatisfaction 和 JobInvolvement 均 包含 Low 值 的 员工 列表 。 
再 次 说 明 , 这 里 采用 了 loc 选取 方法 以 及 index 属性 获取 特定 的 需求 条 件 , 如 图 3.27 所 示 。 


In [62]: loc[{(data['JobSatisfaction'] == "Low') & (data['JobInvolvement'] == 'Low')].index 
‘ 


Out[62]: Int64Index([33, 235, 454, 615, 1019, 1037, 1237, 1460, 1478, 1544, 1611, 1622, 
1905, 1956], 
dtype='int64', name='EmployeeNumber'' ) 


A 3.27 


图 3.27 显示 了 JobSatisfaction 和 JobInvolvement 均 包 含 Low 值 的 员工 号 列表 。 


3.4.3 ”员工 比较 


对 于 Low 和 Very High 的 JobSatisfaction， 下 面 将 对 相应 的 员工 进行 比较 ， 并 通过 
Age、Department、DistanceFromHome 变量 对 这 两 个 分 组 进行 比较 ， 其 间 将 使 用 到 分 组 操 
作 。 这 里 ， 分 组 操作 是 指 应 用 一 系列 的 操作 行为 ， 包 括 划分 、 应 用 和 组 合 ， 对 应 步骤 
如 下 。 

(1) 划分 步 又。 根据 某 些 标准 或 目录 值 ， 可 将 DataFrame 划分 为 一 组 DataFrame。 
这 将 生成 分 组 后 的 对 象 ， 其 中 包含 了 类 似 于 字典 的 结构 ， 且 每 个 分 组 均 与 不 同 的 键 相 

(2) 针对 分 组 对 象 使 用 某 个 函数 进而 得 到 对 应 结果 。 

(3) 将 第 (2) 步 的 操作 结果 分 组 或 整合 为 一 个 新 的 数据 结构 ， 该 数据 结构 可 以 是 


new_df 或 new_series。 
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接 下 来 执行 比较 操作 ， 并 创建 一 个 新 的 DataFrame, 它 只 包含 作为 比较 标准 条 件 的 那 
些 观 察 结 果 ， 并 调用 DataFrame subset of interest。 此 处 将 采用 “|” 运 算 符 获取 员工 的 
Series， 其 中 ， 对 应 的 JobSatisfaction 为 Low 或 Very High， 经 适当 整合 后 可 使 用 shape 


属性 查看 新 创建 的 DataFrame。 随 后 ， 可 使 用 操作 value_count 查看 最 终 的 观测 结果 计数 
情况 ， 如 图 3.28 所 示 。 


subset_of_interest = data.loc[(data['JobSatisfaction'] == "Low") | (data['JobSati 
subset_of_interest.shape 


(748, 33) 


subset_of_interest[ 'JobSatisfaction' ].value_counts() 


Very High 459 
Low 289 


Name: JobSatisfaction, dtype: int64 


A 3.28 


在 上 述 代码 中 ， 可 以 看 到 ， 当 前 DataFrame 包含 了 748 行 和 33 列 ; 另外 ,具有 Very 
High 的 JobSatisfaction 显示 了 459 个 观察 结果 ， 而 具有 Low 的 JobSatisfaction 则 显示 了 
289 个 观察 结果 。 

下 面 仅 考查 我 们 关注 的 观察 结果 , 并 针对 新 创建 的 DataFrame 使 用 groupby 操作 比较 


相关 变量 。 


In [50]: 


In [51]: 


Out[51]: 


另外 ， 还 将 对 从 grouped 操作 返回 的 对 象 加 以 命名 ， 对 应 代码 如 图 3.29 所 示 。 
grouped = subset_of_interest.groupby('JobSatisfaction') 


grouped.groups 
{'Low': Int64Index([ 10, 


1975, 1980, 1998, 2021, 2023, 2038, 2054, 2055, 2057, 2062], 
dtype='int64', name='EmployeeNumber', length=289), 
‘Medium’: Int64Index([], dtype='int64', name='EmployeeNumber'), 
‘High': Int64Index([], dtype='int64', name='EmployeeNumber'), 
"Very High': Int64Index([ 1, 8, 18, 22, 23, 24, 30, 36, 
40, 


2022, 2024, 2027, 2036, 2040, 2041, 2045, 2052, 2056, 2061], 
dtype='int64', name='EmployeeNumber', length=459)} 


图 3.29 
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不 难 发 现 ， 当 对 新 创建 的 对 象 使 用 groups0 方 法 后 ， 将 得 到 两 个 分 组 ， 即 Low 分 组 
和 Very High 分 组 , 同时 针对 每 个 所 关联 的 分 组 得 到 对 应 的 标记 或 索引 。 如 果 希 望 得 到 与 
每 个 分 组 所 关联 的 数据 ， 则 可 使 用 get_group0 方 法 ， 如 图 3.30 所 示 。 


In [52]: grouped.get_group('Low').head() 


Out[52]: 
Age Attrition BusinessTravel DailyRate Department DistanceFromHome Edi 


EmployeeNumber 


Research & 


10 59 Travel_Rarely Development 


Research & 


20 29 Travel_Rarely Development 


27 36 Travel_Rarely Sales 


Research & 


31 34 Travel_Rarely Development 


Research & 


33 32 Yes Travel_Frequently Development 


5 rows x 33 columns 


图 3.30 
执行 基于 Low 键 的 get_group0 方 法 时 ， 将 得 到 与 该 Low 分 组 所 关联 的 DataFrame。 


O xz. 

关于 上 述 分 组 对 象 ， 实 际 上 可 从 原始 DataFrame 中 获取 Series, 但 是 ， 如 果 尝 试 通过 
名 称 获取 Series， 则 无 法 获得 Series， 而 是 得 到 所 谓 的 groupby Series。 当 执行 诸如 mean 
这 一 类 方法 时 ， 将 会 看 到 该 方法 将 应 用 于 每 个 分 组 上 


因此 ， 如 果 调 用 分 组 对 象 的 Age Series 并 计算 均值 ， 值 得 到 每 个 分 组 的 均值 结果 。 
另外 ,还 可 使 用 groupby Series 中 普通 Series 中 的 各 种 方法 。 例 如 ， 当 使 用 describe() 方 法 
时 ， 将 会 看 到 该 方法 应 用 于 Low 分 组 和 Very High 分 组 上 ， 如 图 3.31 所 示 。 

当 对 新 的 Series 应 用 相关 方法 后 ，Low 分 组 的 平均 年 龄 为 36.9; Very High 分 组 的 平 
均 年 龄 为 36.7。 除 此 之 外 ， 我们 还 得 到 了 describe0 方 法 的 输出 结果 ， 并 应 用 于 Low 分 组 
All Very High 分 组 上 。 从 describe() 方 法 得 到 的 Series 表示 为 一 个 pandas Series, 但 该 Series 
包含 了 多 重 索 引 。 其 中 ， 第 一 级 索引 表示 为 Low 和 Very High 分 组 ;第 二 级 索引 表示 为 
统计 值 的 名 称 ， 如 mean、std、min 等 ， 如 图 3.32 所 示 。 

另外 ， 还 可 使 用 unstack0 方 法 将 结果 转换 为 一 个 DataFrame。 


LE 
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In [51]: grouped['Age' 


Out[51]: <pandas.core.groupby.SeriesGroupBy object at 9x869661FBEABD23C8> 


In [52]: grouped['Age'].mean 


Out[52]: JobSatisfaction 

Low 36.916955 
Very High 36.795207 
Name: Age, dtype: float64 


grouped['Age'].describe 


JobSatisfaction 

Low count . 000000 
mean -916955 
std I -245496 
min . 000000 
25% - 000000 
50% . 000000 
75% . 000000 
max - 080000 

Very High count - 000000 
mean - 795207 
std -125609 
min -000000 
25% . 000000 
50% . 000000 
75% . 000000 
max . 000000 

Name: Age, dtype: float64 


In [54]: grouped['Age'].describe().unstack 


out[54] count | mean std 


JobSatisfaction 


Low 36.916955 | 9.245496 


Very High 36.795207 | 9.125609 


FA 3.32 


接 下 来 ， 当 在 不 同 部 门 之 间 进 行 比较 时 ， 可 使 用 value_counts()#ll unstack() 方 法 查看 
每 个 分 组 中 每 个 部 门 的 人 员 数 量 ， 如 图 3.33 所 示 。 

比较 过 程 中 使 用 了 normalize 操作 ， 其 中 ，3% 的 人 员 (JobSatisfaction {HN Low) $ 
属于 Human Resources 部 门 ; 66% 的 人 员 隶 属于 Research & Development 部 门 ，29% 的 人 
RAF Sales 部 门 。 类 似 地 ， 还 可 得 到 Very High 分 组 的 细节 信息 。 
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In [55]: 


grouped[ ‘Department’ ].value_counts().unstack() 


Out[55]: 


Department Human Resources | Research & Development 


JobSatisfaction 


Low 192 


295 


Very High 


In [56]: 10@*grouped[ ‘Department’ ].value_counts(normalize=True).unstack 
Out [56]: 


Department Human Resources | Research & Development| Sales 


JobSatisfaction 


Low 3.806228 66.435986 


29.757785 
Very High 3.703704 64.270153 


32.026144 


A 3.33 


最 后 ， 针 对 DistanceFromHome 比较 ， 可 使 用 describe0 和 unstack() 方 法 将 其 转换 为 
DataFrame， 并 在 DistanceFromHome 变量 间 比 较 两 个 分 组 ， 如 图 3.34 所 示 。 


In [57]: 


grouped[ 'DistanceFromHome '].describe().unstack 
Out l57]: count|mean |std | min 25% 
JobSatisfaction | 


Low 289.0 | 9.190311 |8.045127 | 1.0 


7.0 |14.0 |29.0 
Very High 459.0 | 9.030504 8.257004 | 1.0 


7.0 |14.0|29.0 


In [58]: grouped[ 'DistanceFromHome’ ].describe().unstack()["mean’].plot(kind="bar* 
Out[58]: <matplotlib.axes._subplots.AxesSubplot at @x1fbeabb1a9e> 


it 


JobSatisfection 


Very High 


图 3.34 
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其 中 ， 我 们 得 到 了 源 自 DistanceFromHome 比较 结果 的 一 个 DataFrame， 以 及 一 个 源 
自 比 较 结果 平均 值 的 柱状 图 。 


35 本 章 小 结 


本 章 介 绍 了 pandas 及 其 主要 对 象 ， 如 Series 和 DataFrame， 以 及 在 此 基础 上 的 主要 
操作 。 此 外 ， 我 们 还 通过 pandas 处 理 了 一 些 每 名 数据 分 析 师 每 天 都 会 遇 到 的 问题 。 

第 4 章 将 通过 一 些 强 大 的 工具 ， 如 matplotlib 库 和 seaborn 库 ， 处 理 可 视 化 和 数据 分 
析 问 题 。 


第 4 章 ”可视化 和 数据 分 析 


可 视 化 是 数据 科学 和 数据 分 析 中 的 一 个 重要 主题 。 针 对 各 种 功能 的 可 视 化 操作 ， 
Python 提供 了 多 种 选择 方案 。 本章 将 讨论 两 种 较为 常见 的 Python 可 视 化 库 , BI matplotlib 
库 和 seaborn 库 ， 此 外 还 将 讨论 与 可 视 化 相关 的 各 种 pandas 功能 。 

章 主要 涉及 以 下 主题 。 

O matplotlib 简介 。 
pyplot 简介 。 
面向 对 象 的 接口 。 
常见 的 自 定 义 操作 。 
基于 seaborn 和 pandas 的 数据 分 析 。 
单独 分 析 变量 。 
变量 间 的 关系 。 


DCOOODODO DO 


4.1 matplotlib 简介 


matplotlib 旨 在 简化 操作 ， 同 时 实现 某 些 较为 复杂 的 任务 。 基 本 上 讲 ，matplotlib 是 一 
个 绘制 库 ， 可 生成 多 种 格式 以 及 交互 环境 下 的 高 质量 图 形 。 本 节 讨论 matplotlib 的 功能 、 
基本 概念 、 图 像 、 子 图 (坐标 系 ) 和 坐标 轴 。 除 此 之 外 ，matplotlib 还 可 用 于 Python 脚本 、 
Python 解释 器 、Python Shell、Jupyter Notebook、Web 应 用 程序 服务 器 ， 以 及 各 种 图 形 用 
户 接 口中 。 
下 面 考查 Jupyter Notebook， 其 中 包含 了 较为 丰富 的 matplotlib 信息 。 在 执行 具体 操 
作 之 间 ， 可 首先 访问 matplotlib.org， 其 中 包含 了 相关 示例 、 常 见 的 问题 以 及 图 片 库 。 
当 与 matplotlib 协同 工作 时 ， 人 们 一 般 会 浏览 其 中 的 图 片 库 ， 图 4.1 显示 了 相应 的 主 
FT H] o 
图 4.2 对 小 提琴 图 和 箱 形 图 进行 了 比较 , 同时 可 查看 对 应 的 代码 , 并 可 对 其 进行 调整 
以 实现 最 终 的 可 视 化 效果 。 相 应 地 ， 使 用 describe 方法 将 显示 一 个 较 小 的 DataFrame， 其 
中 包含 数据 集中 每 个 数值 变量 的 所 有 描述 性 统计 信息 。 当 前 ， 如 果 打 算 逐 个 可 视 化 所 有 
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这 些 变量 ,那么 ,可 以 将 hist 方法 应 用 于 DataFrame, 而 不 仅仅 是 一 个 Series, 这 也 是 pandas 
和 可 视 化 功能 的 一 个 优点 。 


, Thumbnail gallery 一 Mi x 


matpI<tlib 


Click on any image to see full size image and source code 


图 4.1 


图 4.2 中 可 以 看 到 部 分 代码 内 容 。 读 者 可 访问 matplotlib 官方 站 点 (matplotlib.org) , 
以 查看 完整 的 代码 内 容 。 

在 讨论 matplotlib 库 的 主要 概念 之 前 ， 下 面 首先 介绍 matplotlib 中 的 一 些 基 本 术语 ， 
如 绘图 窗口 、 子 图 /坐标 系 、 坐 标 轴 ， 如 图 4.3 所 示 。 
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€ > C |O matplotiiborg 
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Figure 


图 4.3 
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下 面 对 图 4.3 中 的 各 项 内 容 进 行 逐一 考查 。 

D ”绘图 窗口 。 绘 图 窗口 表示 层次 结构 中 的 第 一 层 容 器 ， 同 时 也 是 包含 绘制 内 容 的 
整体 窗口 。 我 们 可 设置 多 个 绘制 窗口 ， 且 绘制 窗口 中 可 包含 多 个 坐标 系 。 

D ”坐标 系 / 子 图 。 大 部 分 绘制 内 容 与 某 个 轴 向 或 子 图 相关 ， 且 涉及 多 个 组 件 ， 如 x 
轴 和 y 轴 。 此 外 ,图 4.3 中 还 包含 了 绘制 区 域 、 刻 度 线 等 。 作 为 子 图 的 一 部 分 内 
容 ， 其 中 还 包含 了 其 他 对 象 ， 如 x 轴 及 x 轴 中 的 x 标记 、x 刻度 ， 以 及 该 刻度 的 
标记 。 这 也 是 matplotlib 中 基本 的 层次 结构 。 

O ”坐标 轴 。 层 次 结构 最 上 方 包含 了 绘图 窗口 ， 该 窗口 内 包含 了 多 个 子 图 。 图 4.3 

中 仅 包 含 了 一 个 子 图 。 相 应 地 ， 绘 图 窗口 中 还 可 包含 多 个 子 图 。 每 个 子 图 还 包 

含 了 其 他 元 素 ， 一 般 为 x 轴 、y 轴 和 其 他 元 素 。 


4.2 pyplot 简介 


下 面 将 通过 pyplot 接口 使 用 matplotlib， 这 一 过 程 涉及 pyplot 接口 和 相关 示例 。 
在 Jupyter Notebook 中 ， 应 留意 以 下 命令 。 


smatplotlib inline 


这 也 是 通知 Jupyter Notebook 的 一 种 基本 操作 方式 ， 进 而 查看 Jupyter Notebook 中 的 
绘图 。 若 当前 绘制 窗口 中 未 使 用 该 命令 并 执行 上 述 代 码 行 ， 绘 制 结 果 将 显示 于 不 同 的 窗 
中 。 
基本 上 讲 ，pyplot 表示 为 一 个 命令 样式 函数 集合 ， 并 使 得 matplotlib 的 工作 方式 与 
MATLAB 类 似 ， 其 工作 理念 可 描述 为 : 持 有 一 组 函数 ， 且 每 个 函数 均 可 对 绘制 窗口 进行 
修改 ， 该 绘制 窗口 被 视 为 当前 的 绘制 窗口 。 因 此 ， 每 个 函数 均 可 对 绘制 窗口 执行 某 种 操 
作 。 例 如 ， 可 生成 一 个 绘制 窗口 ， 可 在 某 个 绘制 窗口 中 创建 一 个 绘制 区 域 ， 可 在 绘制 窗 
的 子 图 中 绘制 一 条 直线 ， 可 修改 标记 ;等 等 。 当 使 用 pyplot 时 ， 需 要 知晓 哪 一 个 窗 
是 当前 绘制 窗口 ， 考 查 以 下 示例 。 

d) 首先 需要 向 当前 会 话 中 导入 matplotlib， 如 下 所 示 。 


import matplotlib as plt 


(2) 第 一 条 命令 是 设置 plt 模块 和 pyplot 模块 中 的 plot 函数 ， 并 传递 一 个 数值 列表 。 
因此 ， 执 行 该 命令 后 将 生成 一 个 绘制 窗口 ， 如 图 4.4 所 示 《〈 尽 管 图 4.4 中 无 法 看 到 该 绘制 
窗口 ) 。 其 中 ， 绘 制 窗口 中 包含 了 一 个 子 图 ， 该 子 图 绘制 了 一 条 直线 ， 即 列表 中 数值 的 
图 形 表现 方式 。 


ol] 
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plt.plot([1,2,3,2.5] 
#pLt.ylabeLl( ‘some numbers’) 


[<matplotlib.lines.Line2D at @x211f@1f2710>] 


图 4.4 
在 图 4.4 中 ， 可 以 看 到 该 函数 的 操作 内 容 ， 且 该 窗口 被 视 为 当前 的 绘制 窗口 。 对 于 
其 他 函数 ， 例 如 调用 pltylabel， 将 在 y 轴 上 设置 一 个 标记 ， 即 ylabel。 在 当前 示例 中 ， 该 标 
记 被 视 为 一 些 数字 。 当 再 次 运行 时 ， 对 应 结果 如 图 4.5 所 示 。 其 中 ， 对 应 标记 显示 于 y 轴 上 。 


plt.plot([1,2,3,2.5]) 
plt.ylabel( ‘some numbers‘) 


Text(@,@.5,'some numbers ') 


S NN 
00 05 10 15 20 25 30 


图 4.5 
G) pyplot 中 较为 常用 的 函数 是 plot 函数 ， 该 函数 可 接收 多 个 参数 。 例 如 ， 若 传递 
两 个 数值 列表 ， 且 假设 第 一 个 列表 为 x 坐标 ， 第 二 个 列表 为 y 坐标 。 在 当前 示例 中 ， 默 
认 状 态 下 ， 该 函数 将 绘制 一 条 直线 ， 如 图 4.6 所 示 。 
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In [4]: | plt.plot([1, 2, 3, 4], [1, 4, 9, 16]); 


图 4.6 
上 述 界线 的 工作 方式 可 描述 为 : 通过 调用 函数 序列 构建 图 ， 并 应 用 于 当前 绘制 窗口 
和 当前 子 窗口 中 。 下 面 考查 如 何 通过 pyplot 构建 图 ， 有 具体 步骤 如 下 。 
C1) 向 plot 函数 添加 两 个 列表 ， 如 前 所 述 ， 默 认 行为 是 绘制 一 条 直线 。 因 此 ， 可 以 
看 到 所 显示 的 x My 值 、 直 线 的 颜色 Cightblue) ， 且 直线 的 尺寸 (linewidth) 为 3， 对 
应 的 输出 结果 如 图 4.7 所 示 。 


plt.plot([1, 2, 3, 4], [19, 20, 25, 30], color='lightblue', linewidth=3) 


#plt.scatter([@.3, 3.8, 1.2, 2.5], [11, 25, 9, 26], color='darkgreen', marker='^') 
#plt.xlim(@.5, 4.5) 


#plt.title("Title of the plot") 
#pLt.xLabel("This is the x-Label") 
#plt.ylabel("This is the y-Label"); 


[<matplotlib.lines.Line2D at @x211£0277908>] 


30.0 
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从 图 4.7 中 可 以 看 到 , 一 些 函 数 已 被 注释 掉 。 下 面 将 尝试 逐 行 移 除 注释 ， 并 查看 每 个 
函数 带 来 的 变化 内 容 。 

(2) 散 点 图 对 所 提供 的 坐标 进行 绘制 ， 而 非 绘制 一 条 直线 。 在 当前 示例 中 ， 对 应 坐 
标 分 别 为 x 坐标 和 y 坐标 。 除 此 之 外 ， 图 中 还 显示 了 一 些 绘制 标记 。 对 此 ， 可 定义 一 个 
参数 并 将 标记 的 颜色 设置 为 darkgreen， 对 应 结果 如 图 4.8 所 示 。 


plt.plot([1, 2, 3, 4], [1@, 20, 25, 38], color='lightblue’', linewidth=3) 
plt.scatter([@.3, 3.8, 1.2, 2.5], [11, 25, 9, 26], color='darkgreen', marker='*') 
#plt.xlim(@.5, 4.5) 

#pLlt.title("Title of the plot") 

#plt.xlabel("This is the x-Label") 

#pLt.ylabel("This is the y-Label"); 


<matplotlib.collections.PathCollection at @x211f047132@> 


J 


图 4.8 


G) 下 面 将 通过 男 一 个 函数 修改 x 的 极限 值 。 其 中 ， 最 小 值 为 0.5， 最 大 值 为 4.5。 
也 就 是 说 ，x 轴 上 的 绘制 范围 为 0.5 一 4.5。 在 图 4.9 中 可 以 看 到 调整 后 的 效果 ， 同 时 逐 行 
去 除了 注释 内 容 。 

(4) 下 一 个 函数 将 添加 一 个 绘制 标题 并 调整 绘制 标记 。 在 图 4.10 中 ,可 以 看 到 添加 
了 对 应 的 标题 、x 标记 和 y 标记 。 

当 与 子 图 或 绘制 窗口 协同 工作 时 ， 一 种 较为 方便 的 方法 是 使 用 pyplot 接口 。 但 在 单 
一 绘制 窗口 中 与 多 个 绘制 窗口 或 多 个 子 图 协同 工作 时 ， 这 一 过 程 往往 会 产生 混淆 。 
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In [35]: | plt.plot([1, 2, 3, 4], [10, 20, 25, 30], color="lightblue', linewidth=3) 
plt.scatter([@.3, 3.8, 1.2, 2.5], [11, 25, 9, 26], color='darkgreen', marker='*') 
plt.xlim(@.5, 4.5 
#plt.title("Title of the plot") 

#plt.xLabel("This is the x-Label") 
#plt.ylabel("This is the y-Label"); 


<matplotlib.collections.PathCollection at @x211f047132@> 


3 


In [36]: plt.plot([1, 2, 3, 4 30], color="lightblue', linewidth=3) 
plt.scatter([@.3, 3. = » 25, 9, 26], color='darkgreen', marker='*') 
plt.xlim(@.5, 4.5) 
plt.title("Title of the plot") 
plt.xlabel("This is the x-label" 
plt.ylabel("This is the y-label"); 


Title of the plot 


This is the y-label 
8 X 


5 


15 20 25 30 35 
This is the x-label 


图 4.10 
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(5) 运行 当前 示例 ， 相 关内 容 如 图 4.11 所 示 。 


import numpy as np 
def f(t): 
return np.exp(-t) * np.cos(2*np.pi*t) 


np.arange(®.®, 5.0, @.1) 
np.arange(®.®, 5.0, 0.02) 


图 4.11 


(6) 根据 图 4.11 中 的 数据 ， 可 创建 一 个 包含 两 个 子 图 的 绘制 窗口 。 相 应 地 ， 首 先 将 
生成 一 个 绘制 窗口 ， 并 于 随后 添加 一 个 子 图 。 此 处 需要 构建 一 个 两 行 一 列 的 子 图 网 格 。 
这 里 将 绘制 所 生成 并 定义 的 、Kb， 对 应 结果 如 图 4.12 所 示 。 


In [6]: :import numpy as np 
def f(t): 
return np.exp(-t) * np.cos(2*np.pi*t) 


np.arange(@.@, 
np.arange(@.@, 


. Figure() 
.Subplot(2, 1, 1) 
-plot(tl, f(t1), “bo*) 


.subplot(2, 1, 2) 
-plot(t2, np.cos(2*np.pi*t2), 'r--') 


-ylabel("Y label"); # Which subplot is modifying this function? 


图 4.12 


(7) 图 4.12 中 使 用 了 另 一 个 命令 调整 绘制 过 程 中 的 参数 ， 且 仍 将 得 到 两 行 一 列 的 网 
格 ， 即 第 二 幅 绘图 ， 其 中 将 绘制 t2 对 象 并 使 用 了 标记 。 为 了 对 标记 进行 修改 ， 需 要 保持 
前 子 图 ， 如 图 4.13 所 示 。 
因此 ， 由 于 可 以 确定 所 引用 的 对 象 ， 因 而 建议 选用 面向 对 象 的 接口 。 在 当前 示例 中 ， 
某 个 函数 时 ， 应 确保 知晓 对 应 的 子 图 或 当前 绘制 窗 


I 


Lk 
= 
4 
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: | plt.figure() 
plt.subplot(2, 1, 1) 
plt.plot(t1, f(t1), ‘bo') 


plt.subplot(2, 1, 2) 
plt.plot(t2, np.cos(2*np.pi*t2), 'r--') 


plt.ylabel("Y label"); # Which subplot is modifying this function? 


43 面向 对 象 接口 


本 节 讨 论 面向 对 象 接口 matplotib， 其 中 主要 涉及 以 下 主题 。 

QO 面向 对 象 接口 。 

Ch ”利用 子 图 网 格 创建 绘制 窗口 。 

O 通过 相关 方法 进行 绘制 。 

在 面向 对 象 接口 中 ， 需 要 生成 对 象 并 针对 每 个 对 象 调用 相应 的 方法 ， 进 而 面向 该 对 
象 进行 调整 。 下 面 考查 一 个 简单 的 示例 ， 并 利用 面向 对 象 接口 生成 绘图 。 对 此 ， 一 般 可 
采用 plt.subplots 同时 创建 两 个 对 象 。 当 创建 绘制 窗口 对 象 时 ， 一 般 将 其 称 作 fig， 而 另 一 
个 轴 对 象 则 称 作 ax。 在 当前 示例 中 ， 默 认 函 数 将 生成 包含 单一 轴 对 象 的 绘制 窗口 ， 或 者 
是 一 个 子 图 。 由 于 我 们 需要 创建 自己 的 对 象 ， 因 而 须 进行 适当 调整 。 当 调整 绘图 、 标 题 
或 设置 标记 时 ， 可 使 用 此 类 对 象 上 的 相关 方法 。 下 面 考查 一 些 示 例 ， 并 将 相应 的 示意 图 
作为 参考 点 。 其 间 将 使 用 对 象 上 的 plot0 方 法 ,绘制 NumPy 数组 的 x 和 yl 数组 。 接 下 来 
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使 用 相同 的 对 象 ， 并 绘制 x 和 yY2。 随 后 ， 针 对 同一 对 象 ， 将 分 别 设置 x 标记 、y 标记 以 
及 标题 ， 对 应 结果 如 图 4.14 所 示 。 


In [9]: |# Object Oriented Interface 
fig, ax = plt.subplots() 
ax.plot(x, y1, ‘red') 
ax.plot(x, y2, ‘blue') 
ax.set_title(‘Quadratic and Cubic Powers') 
ax.set_xlabel('x values') 
ax.set_ylabel('y values'); 


Quadratic and Cubic Powers 


x values 


图 4.14 


下 面 考查 如 何 利用 pyplot 接口 生成 相同 的 绘制 结果 。 在 pyplot 接口 中 ， 无 须 使 用 显 
式 的 命令 创建 绘制 窗口 , plot 函数 将 执行 此 项 任务 。 另 外 ,还 可 在 此 类 函数 中 传递 多 个 参 
数 。 首 先 ， 需 要 传递 前 两 个 坐标 对 : 第 一 个 坐标 对 ， 即 x 和 yl 坐标 ， 以 表明 绘制 一 条 红 
线 ， 然 后 可 传递 第 二 个 坐标 对 ， 即 x 和 y2 坐标 ， 以 表明 绘制 一 条 蓝 线 。 接 下 来 ， 可 针对 
该 对 象 设置 x 标记 和 y 标记 ， 对 应 的 输出 结果 如 图 4.15 所 示 。 

鉴于 重新 生成 相同 的 绘制 结果 ， 因 而 代码 量 也 有 所 减少 。 这 里 的 问题 是 ， 面 向 对 象 
接口 的 优势 是 什么 ? 当 与 某 个 绘制 窗口 中 的 多 个 子 图 协同 工作 时 ， 面 向 对 象 接 口 的 优点 
即 可 显现 出 来 。 因 此 ， 如 果 在 一 个 绘制 窗口 中 仅 生成 一 个 子 图 ， 那 么 ， 较 好 的 方法 是 使 
用 面向 对 象 接 口 pyplot。 当 使 用 多 个 子 图 时 ， 面 向 对 象 的 优点 将 更 加 突出 。 
此 ， 为 了 生成 子 图 网 格 ， 可 使 用 plt.subplots 函数 ， 并 可 指定 所 需 的 行 数 和 列 数 。 


Ea 
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| 


4.16 中 显示 了 4 个子 图 


o 


在 


In [10]: # pyplot 
plt.plot(x, yi, "red; x, y2, ‘blue') 
plt.title('Quadratic and Cubic Powers’) 
plt.xlabel('x values’) 
plt.ylabel('y values’); 


Quadratic and Cubic Powers 


In [11]: fig, axes = plt.subplots(nrows=2, ncols=2) 


100 1.00 
75 4 
10.50 7 
25 7 


10.00 
0 0 
1.00 


p75 4 
10.50 7 


0.25 


10.0 qy 


0.00 + T T- Tr 0 + + - 
00 02 04 06 08 10 00 02 04 06 08 10 


图 4.16 
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当前 ， 可 对 每 个 对 象 加 以 引用 ， 这 也 是 面向 对 象 接口 的 优点 之 一 。 下 面 考查 另 一 
示例 ， 并 再 次 运行 代码 创建 两 个 对 象 ， 即 绘制 窗口 对 象 和 坐标 轴 对 象 。 在 当前 示例 中 ， 
坐标 轴 表 示 为 包含 4 个 子 图 的 多 维 NumPy 数组 。 当 访问 子 图 时 ， 需 要 使 用 NumPy 数组 
符号 。 因 此 ， 第 一 个 子 图 表示 为 索引 (0.0) 的 子 图 。 如 果 需 要 对 该 对 象 进行 适当 调整 ， 
则 可 使 用 相应 的 方法 完成 这 一 操作 。 在 当前 示例 中 ， 假 设 需要 修改 标题 内 容 ， 并 设置 该 
对 象 的 标题 。 也 就 是 说 ， 在 索引 (0,0) 中 ， 可 将 标题 设置 为 Upper Left。 通 过 对 应 的 索引 ， 
可 引用 每 个 子 图 ， 并 利用 具体 的 操作 方法 。 此 处 将 针对 每 个 对 象 调 整 标题 内 容 。 考 虑 至 
对 象 axes 表示 为 一 个 NumPy 数组 , 因而 可 以 迭代 是 否 要 对 每 个 对 象 、 每 个 子 图 进行 类 似 
的 更 改 。 
因此 ， 可 针对 每 个 子 图 使 用 flat 属性 ， 并 将 其 称 作 ax。 此 处 , 将 xticks 和 yticks 设置 
为 空 表 ， 并 对 其 进行 移 除 。 当 运行 代码 时 ， 可 以 看 到 ，xticks 或 yticks 将 不 复 存 在 。 由 于 
这 里 设置 了 标题 ， 因 而 此 处 显示 了 全 部 标题 ， 如 图 4.17 所 示 。 


: fig, axes = plt.subplots(nrows=2, ncols=2) 
axes[@,0].set_title('Upper Left’) 
axes[@,1].set_title('Upper Right’) 
axes[1,0].set_title('Lower Left') 
axes[1,1].set_title('Lower Right’) 


# To iterate over all items in a multidimensional numpy array, use the flat’ attribute 
for ax in axes.flat: 

# Remove all xticks and yticks... 

ax.set(xticks=[], yticks=[]) 
fig.tight_layout(); 


Upper Left Upper Right 


Lower Left Lower Right 


图 4.17 


于 创建 了 绘制 窗口 对 象 ， 因 而 可 使 用 tight layout 这 一 类 绘制 窗口 方法 ， 且 仅 关注 
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子 图 的 呈现 方式 ， 以 避免 彼此 间 处 于 重 从 状态。 基本 上 讲 ， 这 可 视 为 面向 对 象 接口 背后 
所 蕴含 的 理念 。 我 们 创建 了 相关 对 象 ， 并 于 随后 针对 所 创建 的 每 个 对 象 应 用 相关 方法 。 
在 图 4.18 中 包含 了 多 个 实例 以 及 生成 结果 。 


In [13]: x = np.linspace(start=-5, stop=5, num=150) 


In [14]: | # ALL functions in one axes 


fig, ax = plt.subplots(figsize = (7,4)) 
ax.plot(x, x, label='Linear') 
ax.plot(x, x**2, label='Quadratic') 
ax.plot(x, x**3, label='Cubic') 
ax.plot(x, x**4, label='4th Power') 
ax.legend(); 


— Linear 
Quadratic 

— Cubic 

—— 4th Power 


图 4.18 


下 面 生成 包含 单一 子 图 的 独立 绘制 窗口 ， 并 绘制 x 的 4 次 方 ， 同 时 查看 如 何在 不 同 


的 子 图 中 进行 绘制 。 在 单元 中 ， 将 创建 包含 两 行 两 列 网 格 的 子 图， 因而 总 计 4 个 子 图 。 


接 下 来 使 用 面向 对 象 接口 针对 第 一 个 子 图 设置 标题 ， 并 针对 Linear 函数 设置 绘图 。 对 于 


第 二 个 绘图 ， 
所 示 。 


其 索引 为 (0,1)，(0,1), 将 设置 标题 并 绘制 x 和 x 的 平方 ， 对 应 结果 如 图 4.19 


在 图 4.19 4 
中 ， 还 可 进一步 查看 x 的 10 次 方 。 因 此 ， 这 体现 了 面向 对 象 接口 的 工作 方式 ， 同 时 也 是 
matplotlib 的 应 用 方式 。 


可 以 看 到 ， 其 中 包含 了 4 个 子 图 ， 且 每 个 子 图 对 应 一 个 函数 。 在 图 4.20 


因此 ， 面 向 对 象 接口 的 方便 性 可 见 一 斑 。 
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In [15]: | # 4 Axes/SubpLots: One function in one axes 
fig, axes = plt.subplots(nrows=2, ncols=2, figsize = (7,4.5)) 
axes[@,0].set_title(‘Linear') 
axes[@,0].plot(x, x) 
axes[@,1].set_title( 'Quadratic') 
axes[@,1].plot(x, x**2) 
axes[1,@].set_title('Cubic' 
axes[1,0].plot(x, x**3) 
axes[1,1].set_title('4th Power’) 
axes[1,1].plot(x, x**4) 
fig.tight_layout(); 


Linear Quadratic 


4th Power 


In [16]: |# A more elegant approac 
fig, axes = plt.subplots(nrows=2, neols=5, figsize = (14,4.5) 
for i, ax in enumerate(axes.flatten()): 

ax.set_title("x to the {:d}".format(i+1)) 
ax.plot(x, x**(i+1)) 


Fig.tight_layout(); 


xtothe1 xtothe3 x tothe 4 xtothe5 


e7 xto the 10 
0 
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4.4 常见 的 自 定义 方式 


race 的 一 个 优点 是 ， 可 对 绘图 中 的 单一 元 素 进行 调整 ， 当 采用 matplotlib 执行 
数据 分 析 时 ， 常 会 看 到 一 些 较为 常用 的 自 定义 方式 。 

下 面 首先 生成 一 些 工作 数据 ， 如 下 所 示 。 

# Generating data 

x = np.linspace(-np.pi, np.pi, 200) 

sine, cosine = np.sin(x), np.cos(x) 


并 在 此 基础 上 查看 matplotlib 中 的 各 种 自 定义 特性 。 
4.4.1 颜色 


颜色 与 绘制 窗口 中 的 各 种 元 素 均 有 所 关联 ，matplotlib 对 此 提供 了 较 好 的 支持 。 
matplotlib 中 使 用 颜色 最 常见 的 方式 是 颜色 名 称 或 其 首 字母 。 因 此 ， 对 于 每 种 元 素 ， 
如 标题 栏 、 直 线 或 文本 的 颜色 ， 可 传递 一 个 附加 的 参数 ， 其 中 包含 了 对 应 颜色 的 字符 串 。 
例如 ， 对 于 蓝 色 来 说 ， 可 传递 一 个 字符 串 b， 或 者 传递 blue; 对 于 绿色 来 说 同样 如 此 ， 可 
传递 一 个 字符 串 g， 或 者 传递 green。 
下 列 内 容 展 示 了 常用 的 颜色 及 其 首 字母 列表 。 
Q b: 蓝 色 。 
g: 绿色 。 
: 红色 。 
: 青色 。 
: 洋红 色 。 
: 黄色 。 
: 黑色 。 
w: 白色 。 
其 他 允许 使 用 的 颜色 名 则 是 HTML/CSS 颜色 名 ， 例 如 burlywood 和 chartreuse. 


Oa 
此 类 颜色 名 共计 147 个 ， 读 者 可 访问 https://www.w3schools.com/tags/ref_colornames.asp 
以 了 解 更 多 内 容 。 


在 matplotlib 中 ， 另 一 种 颜色 的 指定 方式 是 使 用 十 六 进 制 数值 ， 这 在 HTML 或 CSS 


OCooooo 
mugo 


口 
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中 己 有 所 体现 。 例 如 可 传递 #0000FF 这 一 类 数值 ，matplotlib 将 对 此 予以 支持 。 

通过 传递 0 一 1.0 的 字符 串 表 达 方式 ， 还 可 指定 相应 的 灰 度 〈 而 非 颜色 ) 。 其 中 ， 
0.0 表示 为 黑色 ，1.0 表示 为 白色 ， 其 间 的 每 个 数值 均 表 示 为 灰 度 着 色 。 例 如 ，0.75 表示 
BEAK 

除 此 之 外 , 还 可 传递 RGB 元 组 , 其 中 的 最 后 一 个 数值 定义 为 透明 度 值 , 也 称 作 Alpha. 
当 传 递 包含 4 个 元 素 的 元 组 时 ，matplotlib 将 前 3 个 元 素 解释 为 RGB 颜色 ， 并 将 最 后 一 
个 解释 为 Alpha 值 。 因 此 ， 假 设 需要 将 正弦 曲线 着 色 为 红色 ， 则 可 使 用 color='red'; 而 对 
于 余弦 曲线 ， 则 可 使 用 color=#165181'， 如 图 4.21 所 示 。 


v 


: fig, ax = plt.subplots() 
ax.plot(x, sine, color='red') 
ax.plot(x, cosine, color='#165181'); 


图 4.21 
在 图 4.21 中 可 以 看 到 ， 当 运行 代码 单元 时 ， 将 分 别 显示 具有 不 同 颜色 的 曲线 。 


44.2 ”限定 坐标 轴 


利用 set_xlim0) 方 法 ,可 对 x 轴 进 行 限定 ; 而 使 用 set_ylim0 方 法 ， 则 可 对 y 轴 进 行 限 
制 。 此 类 方法 接收 两 个 数值 ， 即 最 小 值 和 最 大 值 ， 如 图 4.22 所 示 。 
在 图 4.22 中 可 以 看 到 ， 两 个 轴 向 的 默认 限定 条 件 已 发 生变 化 。 


443 设置 刻度 和 刻度 标记 


matplotlib 可 尝试 生成 相对 合理 的 刻度 和 刻度 标记 。 这 里 ， 刻 度 是 指 水 平 轴 向 上 的 标 
记 ; 而 刻度 标记 或 刻度 标签 则 表示 与 刻度 标记 对 应 的 数字 或 数值 。 另 外 ， 根 据 具 体 情 况 ， 
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还 可 对 刻度 标记 和 刻度 标签 修改 ， 如 图 4.23 所 示 。 


In [22]: 


fig，ax = plt.subplots() 


ax 
ax 
ax 
ax 


-plot(x, sine, color='red') 
-plot(x, cosine, color='#165181') 
-set_xlim(-3.5,3.5) 
-set_ylim(-1.2,1.2); 


fig, ax = plt.subplots() 
ax.plot(x, sine, color='red') 
ax.plot(x, cosine, color='#165181') 


ax.set_xlim(-3 


553-5) 
ax, set_ylim(-1.2,1.2) 


ax.set_xticks([-np.pi, -np.pi/2, ð, np.pi/2, np.pi]) 
ax.set_yticks(np.arange(-1,1.1,0.5)); 


T T T 
-1.571 0.000 1571 


图 4.23 
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在 图 4.23 F, x 轴 和 y 轴 上 包含 了 一 组 自 定义 刻度 标记 和 刻度 标签 。 

类 似 于 修改 xticks 的 位 置 , 还 可 对 xticks 的 标签 进行 调整 。 假设 需要 x 轴 上 的 标记 显 
示 为 -x 和 -nn/2 这 一 类 数学 符号 ， 则 可 利用 set_xticks 、set yticks 、set_xticklabels 和 
set_yticklabels 进行 修改 并 赋予 新 值 ， 如 图 4.24 所 示 。 


: fig, ax = plt.subplots() 


ax 


ax. 


ax. 
ax. 


ax 
ax 


ax. 
ax. 


+1 


+plot(x, sine, color='red') 


plot(x, cosine, color='#165181') 


set_xlim(-3.5,3.5) 
set_ylim(-1.2,1.2) 


.set_xticks([-np.pi, -np.pi/2, 9, np.pi/2, np.pi]) 
.set_yticks([-1,0,1]) 


set_xticklabels([r'$-\pi$', r'$-\pi/2$', r'$0$', r'$+\pi/2$', r'$+\pi$'], size=17) 
set_yticklabels(['-1','@','+1'], size=17); 


图 4.24 


在 图 4.24 中 ， 我 们 修改 了 刻度 标签 值 ， 并 以 数学 符号 的 方式 予以 呈现 。 


4.4.4 图 例 

legend0 方 法 用 于 生成 绘图 中 的 曲线 图 例 ， 如 可 辨识 正弦 曲线 和 余弦 曲线 。 因 此 ， 需 
要 针对 所 绘制 的 每 条 直线 指定 一 个 标记 。 对 此 ， 可 使 用 legend() 方 法 并 传递 相关 参数 ， 进 
而 通知 matplotlib 标记 的 放置 位 置 ， 如 图 4.25 Aras. 


在 图 4.25 中 可 以 看 到 ， 正 弦 函 数 和 余弦 函数 图 例 置 于 图 中 的 左上 方 ， 进 而 可 通过 


XR 


称 方便 地 识别 每 条 直线 。 


.74 。 


fig, 
ax.pli 
ax.pli 


ax.se 
ax. se 


ax.se 
ax.se 


ax. se 
ax.se 


ax. le 
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ax = plt.subplots() 
ot(x, sine, color='red', label='Sine') 
ot(x, cosine, color='#165181', label="Cosine') 


t_xlim(-3.5,3.5) 
t_ylim(-1.2,1.2) 


t_xticks([-np.pi, -np.pi/2, 8, np.pi/2, np.pi]) 
t_yticks([-1,0,1]) 


t_xticklabels([r'$-\pi$', r'$-\pi/2$', r'$e$', r'$+\pi/2$', r'$+\pi$'], size=17) 
t_yticklabels(['-1','@','+1'], size=17) 


gend(loc='upper left'); 


— Sine 
-一 sine 


图 4.25 


相应 地 ， 存 在 两 个 主要 函数 或 方法 可 执行 标注 工作 。 具 体 来 说 ， 可 通过 指定 所 示 文本 


标 使 用 text0 方 法 ， 该 方法 的 第 三 个 参数 为 实际 绘制 的 文本 内 容 ， 如 图 4.26 


所 示 。 
在 图 4.26 
(np.pi-0.25,0, r" 


中 ， 标 注 (0,0) 通 过 ax.text(-0.25,0,"(0,0)") 生 成 ;标注 (x,0) 则 通过 ax.text 
$(\pi,0)$', size=15) 方 法 生成 。 除 此 之 外 ，annotate 方法 则 是 另 一 个 绘图 标注 


annotate 方法 接收 多 个 参数 。 针 对 之 前 所 展示 的 输出 结果 , 此 处 可 利用 xytext=(1,-0.7) 
指定 文本 显示 位 置 ， 而 在 arrowprops=dict(facecolor-blue)) 中 ， 我 们 针对 箭头 图 标 传递 了 


一 个 字典 。 
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fig，ax = plt.subplots() 


ax. 
ax. 


ax. 
ax. 


ax. 
ax. 


ax. 
ax. 


ax. 


plot(x, sine, color='red', label='Sine') 
plot(x, cosine, color='#165181', label='Cosine') 


set_xlim(-3.5,3.5) 
set_ylim(-1.2,1.2) 


set_xticks([-np.pi, -np.pi/2, ©, np.pi/2, np.pi]) 
set_yticks([-1,0,1]) 


set_xticklabels([r'$-\pi$', r'$-\pi/2$', r'$0$', r'$+\pi/2$', r'$+\pi$'], size=17) 
set_yticklabels([‘-1','@',‘+1°], size=17) 


legend(loc='upper left’) 


.text(-0.25,0,'(@,0)') # x coord, y coord, 
.text(np.pi-0.25,0, r'$(\pi,0)$', size=15) 


sannotate( ‘Origin’, 


xy=(9, ©), # where the arrow points to 
xytext=(1, -0.7), # Location of text 
arrowprops=dict(facecolor='blue')); 


— Sne 
— sine 


图 4.26 


446 生成 网 格 、 水 平 线 和 垂直 线 


当 生 成 网 格 、 水平线 和 垂直 线 时 , 存在 多 种 操作 方法 可 实现 这 一 任务 。 其 中 , axhlineO 


方法 用 于 生成 水 平 线 ; 此 外 ， 还 可 进一步 针对 颜色 和 透明 度 指定 其 他 参数 ， 如 Alpha 和 
色 值 。 类 似 地 ，axvline0 方 法 则 通过 相关 参数 绘制 垂直 线 ， 对 应 代码 如 图 4.27 所 示 。 
grid() 方 法 将 生成 绘图 网 格 。 具 体 而 言 ， 输 出 结果 中 的 浅 灰 线 使 得 绘图 结果 看 起 来 更 
加 舒适 。 我 们 几乎 可 以 自 定义 matplotlib 中 的 每 个 元 素 ， 但 本 章 仅 涉及 较为 常用 的 元 素 。 


Bi 


。76 。 


: fig, ax = 


ax. 
ax. 


ax. 
ax 


ax. 
ax 


ax. 
ax. 


ax. 


ax 
ax 


.text(-9.2 
.text(np.pi-6 
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plt.subplots() 
plot(x, sine, color='red', label="Sine") 
plot(x, cosine, color='#165181', label="Cosine’) 


set_xlim(-3.5,3.5) 


-set_ylim(-1.2,1.2) 


set_xticks([-np.pi, -np.pi/2, @, np.pi/2, np-pi]) 


+set_yticks([-1,0,1]) 


set_xticklabels([r’$-\pi$", r'$-\pi/2$', r'$0$°, r'$+\pi/2$', r'$+\pi$'], size=17) 
set_yticklabels(['-1','0',*+1'], size=17) 


legend(loc='upper left") 


(0,0)') # 
-05, r'$(\pi,0)$', s 


coord, y 


.annotate('Origin', 


xy=(@, 0), # whe 
xytext=(1, -0 
blue')); 


arrowprops=dict(facecolor: 


.axhline(@, color='black', alpha=0.9) # 
.axvline(@, color='black', alpha=0.9) # 
-grid(); 


+1 


一 Sne 
一 Cosine 


0 +n/2 


图 4.27 


4.5 基于 seaborn 4 pandas 的 EDA 


探索 性 数据 分 析 EDA) 是 一 种 数据 集 分 析 方案 ， 并 对 主要 特征 进行 汇总 ， 通 常 采 
用 可 视 化 方法 予以 显示 。EDA 常用 于 理解 数据 、 获 取 与 此 相关 的 某 些 上 下 文 环 境 、 理 解 


AB et Ke 
4.5.1 


seaborn 


库 可 以 生成 具有 吸引 力 的 、 信 息 丰 富 的 图 


之 间 的 关系 ， 进 而 形成 某 种 假设 条 件 ， 以 供 后 续 构 建 预测 模式 使 用 。 


seaborn 库 


形 , 其 中 包括 Python 中 的 统计 信息 。 
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WW 


对 此 , matplotlib 常用 于 构建 seaborn Æ- 另外, seaborn 库 还 可 与 Python 数据 科学 栈 集成 ， 
同时 支持 NumPy、pandas， 以 及 SciPy 的 统计 例 程 和 统计 模型 。 
O +s: 

KF seaborn 及 其 特性 ,读者 可 访问 https://www.datasciencecentral.com/profiles/blogs/ 


opensource-pythonvisualization-libraries 以 了 解 更 多 内 容 


seaborn 库 的 导入 操作 如 下 。 


# standard import statement for seaborn 
import seaborn as sns 


4.5.2 ”执行 探索 性 数据 分 析 


当 执行 探索 性 数据 分 析 时 ， 可 使 用 一 个 数据 集 ， 该 数据 集中 包含 了 美国 城市 中 房屋 
售 价 以 及 户型 等 信息 ， 我 们 将 把 该 数据 集 加 载 至 pandas DataFrame 中 ， 如 图 4.28 所 示 。 


we 


housing = pd.read_csv('../data/house_train.csv') 


housing. shape 


(1460, 81) 


housing. info() 


<class 'pandas.core.frame.DataFrame'> 
RangeIndex: 1460 entries, @ to 1459 
Data columns (total 81 columns): 

Id 1460 non-null int64 
MSSubClass 1460 non-null int64 
MSZoning 1460 non-null object 
LotFrontage 1201 non-null float64 
LotArea 1460 non-null int64 
Street 1460 non-null object 
Alley 91 non-null object 
LotShape 1460 non-null object 
LandContour 1460 non-null object 
Utilities 1460 non-null object 
LotConfig 1460 non-null object 
LandSlope 1460 non-null object 
Neighborhood 1460 non-null object 
Condition1 1460 non-null object 
Condition2 1460 non-null object 
BldgType 1460 non-null object 
HouseStyle 1460 non-null object 
Overallqual 146@ non-null int64 


图 4.28 
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图 4.28 中 的 代码 也 体现 了 数据 集 和 pandas DataFrame 间 的 加 载 方式 ， 可 以 看 到 ， 
DataFrame 中 包含 了 1460 个 观测 结果 以 及 81 列 数据 。 其 中 , 每 一 列 数据 体现 了 DataFrame 
中 的 一 个 变量 。 此 处 并 不 打算 使 用 全 部 变量 ， 相 反 ， 我 们 仅 关注 执行 探索 性 分 析 时 所 涉 
及 的 一 些 变量 。 


453 ”核心 目标 


所 有 的 数据 分 析 都 必须 以 一 些 关 键 问题 或 目标 为 指导 ， 在 开始 执行 数据 分 析 任 务 之 
前 ， 我 们 的 头脑 中 须 建立 起 一 个 清晰 的 目标 。 作 为 示例 ， 以 下 内 容 显示 了 数据 集 探 索性 
数据 分 析 过 程 中 的 主要 目标 。 

Ch ”理解 数据 集中 的 单一 变量 。 

D ”理解 数据 集中 变量 与 房屋 售 价 之 间 的 关系 。 

只 有 在 深入 理解 了 数据 和 当前 问题 后 ， 方 可 得 到 有 意义 的 分 析 结 果 。 


454 变量 类 型 


整体 上 讲 ， 变 量 存在 以 下 两 种 可 能 的 数据 类 型 。 

口 ”数值 变量 。 

D 类 别 变量 。 

数值 变量 表示 相关 变量 值 为 数字 ; 而 类 别 变 量 则 意味 着 对 应 值 为 相关 分 类 , 如 图 4.29 
所 示 。 


Variable 


Numeric Categorical 


I 


Continuous Discrete Ordinal Nominal 


图 4.29 


上 述 两 个 较 大 的 分 类 中 各 包含 了 两 个 子 分 类 。 对 于 数值 变量 ， 一 方面 ， 定 义 了 连续 
变量 ， 连 续 变量 理论 上 可 以 取 区 间 内 的 任何 值 。 另 一 方面 ， 离 散 数字 变量 可 表示 为 区 间 
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内 的 某 些 特定 值 ， 对 于 类 别 变量 ， 其 中 涵盖 了 两 种 类 别 变量 类 型 。 第 一 种 变量 定义 为 有 
序 变量 ， 且 包含 了 对 应 类 别 的 自然 顺序 。 例 如 ， 如 果 定 义 了 一 个 quality 变量 ， 该 变量 的 
分 类 对 应 于 低 质 、 中 质 、 优 质 ， 鉴 于 该 分 类 中 包含 了 自然 顺序 ， 因 而 可 得 到 一 个 有 序 变 
量 。 在 某 种 意义 上 讲 ， 中 质 优 于 低 质 ， 而 优质 则 胜 于 中 质 和 低 质 。 第 二 种 变量 为 名 义 
(Nominal) 类 别 变量 ， 是 指 类 别 变量 不 包含 任何 顺序 。 

下 面 考查 数据 集中 的 数值 变量 示例 。 
SalesPrice: 该 变量 表示 房屋 的 售 价 。 
LotArea: 该 变量 表示 房屋 面积 。 
OverallQual: 该 变量 表示 整体 材料 的 利用 率 。 
OverallCond: 该 变量 代表 房屋 的 整体 状况 。 
IstFirSF: 该 变量 表示 一 楼 的 面积 。 
2ndFirSF: 该 变量 表示 二 楼 的 面积 。 
BedroomAbvGr: 该 变量 表示 楼 上 的 卧室 (不 包括 地 下 室 的 卧室 )。 
YearBuilt: 变量 表示 最 初 的 构建 日 期 (从 技术 上 讲 ， 这 不 是 一 个 数值 变量 ， 但 
是 我 们 将 使 用 它 来 生成 男 一 个 名 为 Age 的 变量 ) 。 
下 面 考查 数据 集中 与 类 别 变量 相关 的 一 些 示例 。 

MSZoning: 该 变量 用 于 标识 销售 的 一 般 分 区 分 类 。 

LotShape: 该 变量 表示 房屋 的 户型 。 

Neighborhood: 该 变量 表示 Ames 城市 范围 内 的 物理 位 置 。 

CentralAir: 该 变量 表示 中 央 空 调 系统 。 

SaleCondition: 该 变量 表示 出 售 条 件 。 

MoSold: 该 变量 表示 出 售 月 份 (MM) 。 

YrSold: 该 变量 表示 出 售 年 份 CYYYY) 。 
面 在 实际 分 析 数 据 时 ， 将 会 看 到 为 什么 这 些 变量 被 称 作 数 值 变量 和 类 别 变量 。 


DCOCOOOOO 


mOoOooooo 


46 单独 分 析 变 量 


首先 需要 定义 分 析 过 程 中 所 用 的 变量 名 ， 当 前 包含 了 一 个 数值 变量 列表 和 类 别 变量 
列表 。 随 后 ， 将 重新 定义 房屋 的 DataFrame， 其 中 仅 包含 了 刚刚 定义 的 变量 。 接 下 来 ， 可 
使 用 shape 属性 查看 新 DataFrame 的 大 小 ， 如 图 4.30 所 示 。 

在 图 4.30 中 ， 可 以 看 到 DataFrame 的 尺寸 发 生 了 变化 ， 且 仅 包含 15 列 。 
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: | numerical_vars = ["Saleprice'，"LotArea'，'overallQual'， 


"YearBuilt', '1stFlrSF', '2ndFlrsF', 
categorical_vars = ['MSZoning', ‘LotShape', ‘Neighborho 


: | housing = housing[numerical_vars+categorical_vars] 


: housing. shape 


: (1460, 15) 


BI 4.30 


4.6.1 理解 主 变量 


*overallcond', 
"BedroomAbvGr '] 


od', ‘CentralAir’, ‘SaleCondition’, ‘Mm 


osold', "YrSold'] 


下 面 介绍 一 下 主 变量 ， 即 房屋 的 SalePrice。 对 于 一 个 类 别 变量 ， 我 们 要 做 的 第 一 件 
事 就 是 了 解 其 描述 性 统计 数据 ， 如 图 4.31 所 示 。 


In [10]: | #descriptive statistics summary 
housing['SalePrice'].describe() 


Out[1@]: count 146 
mean 18092 
std 7944 


min 3490 
25% 12997 
50% 16300 
75% 21400 
max 75500 
Name: SalePrice, dtype: float64 


图 4.31 


8.888888 
1.195890 
2.502883 
18. 888880 
5.000000 
Ə. 888080 
Ə. 888080 
18. 888888 


至 此 ， 我 们 已 了 解 到 主 变量 的 取 值 范围 。 在 图 4.31 中 ， 可 以 看 到 数据 集中 的 平均 房 
价 为 180000 美元 。 另 外 ， 标 准 偏差 约 为 80000 美元 。 与 数据 集中 最 便宜 的 房子 对 应 的 最 
小 值 约 为 35000 美元 ; 与 数据 集中 最 昂贵 的 房子 对 应 的 最 大 值 为 755000 美元 。 


一 般 来 讲 ， 获 取 计 算数 值 变 量 的 描述 性 统计 是 一 种 较 好 的 习惯 ,进而 了 解 该 变量 可 
比 之 外 ， 还 需要 通过 变量 的 
步 完 善 从 数值 汇总 中 获取 的 信息 。 对 于 数值 变量 ， 一 种 典型 的 变量 可 视 化 


取 的 数值 ， 以 及 该 变量 的 分 布 和 离散 状态 。 除 


状 图 。 当 显示 pandas Series 的 柱状 图 时 ， 可 使 


hist 方法 ， 如 图 


从 图 4.32 中 可 以 看 出 , 房屋 的 价格 很 少 低 于 100000 美元 , AKA BUG 


在 100000 美元 一 200000 美元 。 此 外 ， 图 中 仅 包含 了 少量 的 、 价 格 过 高 的 观测 结果 。 也 就 


H 
是 说 ， 很 少 有 超过 400000 美元 的 房屋 ， 且 图 中 的 分 布 结果 呈现 为 长 尾 状态 ， 这 一 点 可 通 


图 形 表达 进 一 


4.32 所 示 。 


里 解 方式 是 柱 


屋 的 价格 集中 
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过 Skewness 和 Kurtosis 数值 统计 得 到 确认 。 其 中 ， 偏 度 为 0 表示 正 态 分 布 ， 对 于 正 值 ， 
将 得 到 一 个 与 当前 显示 类 似 的 正 态 尾部 状态 。 相 应 地 , 峰 度 则 表示 分 布 的 厚度 。 在 图 4.32 
中 ， 较 高 的 数值 主要 集中 在 100000 美元 一 200000 美元 一 一 据 此 ， 当 前 峰 度 为 6.5。 接 近 
正 态 分 布 的 变量 其 值 通常 在 3 左右 。 


In [11]: housing['SalePrice'].hist(edgecolor='black', bins=28); 


0 100000 200000 300000 400000 500000 600000 700000 


#skewness and kurtosis 
print("Skewness: {:0.3f}".format(housing['SalePrice'].skew())) 
print("Kurtosis: {:0.3f}".format(housing['SalePrice'].kurt())) 


Skewness: 1.883 
Kurtosis: 6.536 


图 4.32 
462 ”数值 变量 


如 果 希 望 检 测 数 据 集中 的 全 部 变量 ， 可 以 非常 方便 地 使 用 针对 pandas DataFrame 对 
象 获取 的 hist0 方 法 来 实现 。 对 此 ， 可 利用 现 有 的 数值 变量 列表 构建 房屋 DataFrame 的 子 
集 ， 同 时 ， 正 如 我 们 对 pandas Series 所 做 的 那样 ， 也 可 以 对 pandas DataFrame 执行 同样 
的 操作 。 因 此 ， 可 使 用 hist0 方 法 并 设置 以 下 参数 : edgecolor 赋予 为 黑色 ， 以 使 每 个 柱状 
图 案 之 间 的 直线 显示 为 黑色 ;柱状 图 中 的 bins 数 量 则 设置 为 15; figsize 设置 为 (14,5); layout 
设置 为 2 行 、4 列 。 图 4.33 共计 显示 了 8 个 柱状 图 。 

pandas 针对 数据 集中 8 个 数值 变量 生成 了 较 好 的 可 视 化 效果 ， 据 此 ， 我 们 可 以 达到 
大 量 的 有 用 信息 ， 具 体 如 下 。 
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In [13]: 


out [13]: 


In [14]: 


oO 


Oooo 


Q 


housing[numerical_vars] .describe() 


SalePrice 


LotArea 


OverallQual OverallCond 


YearBuilt 


1stFIrSF 


2ndFIrSF 


BedroomAbvGr 


count 1460.000000 
mean 180921 195890 
79442 502883 
34900.000000 
128975.000000 

% 163000.000000 
214000.000000 
755000.000000 


1460.000000 
10516.828082 
9981 264932 
1300.000000 
7553.500000 
9478.500000 
11601.500000 
215245.000000 


1460.000000 1460.000000 


6.099315 
1382997 
1.000000 
5.000000 
6.000000 
7.000000 
10.000000 


5.575342 
1112799 
1.000000 
5.000000 
5.000000 
6.000000 
9.000000 


1460.000000 
1971.267808 

30202904 
1872.000000 
1954.000000 
1973.000000 
2000.000000 
2010.000000 


1460.000000 
1162.626712 
386 587738 
334.000000 
882.000000 
1087.000000 
1391.250000 
4692.000000 


1460.000000 
346.992466 
436 528436 

0.000000 
0.000000 
0.000000 
728.000000 


2065.000000 


1460.000000 
2.866438 
0.815778 
0.000000 
2.000000 
3.000000 
3.000000 
8.000000 


housing[numer-ical_vars] .hist (edgecolor="black", bins=15, figsize=(14, 5), layout = (2,4)); 


1stFIrSF 


2ndFirsF 


BedroomAbvGr 


1000 2000 3000 
OverallCond 


4000 


0 500 1000 1500 2000 
OverallQual 


0 
© 5000010000a5000c200000 
YearBuilt 
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从 lstFlrSF 中 可 以 看 到 ， 一 层 的 面积 分 布 状态 向 右倾 斜 。 也 就 是 说 ， 大 多 数 
屋 的 面积 基本 在 1000 平方 英尺 ?或 1200 平方 英尺 左右 。 


在 2ndFlrSF 变量 中 ， 最 大 的 柱状 图 大 约 为 0， 表 明 大 多 数 房 
大 多 数 房屋 均 配 置 了 3 间 卧 室 。 
在 LotArea 中 ， 柱 状 图 高 度 倾斜 ， 也 就 是 说 ， 面 积 大 的 户型 较 少 。 


屋 均 不 包含 二 层 。 


Di 


条 件 和 质量 评级 结果 大 约 为 5， 这 说 明 大 部 分 房屋 的 评级 适中 〈 较 高 和 较 低 的 评 


级 较 少 ) 。 


当前 ，YearBuilt 变量 实际 上 并 无 太 多 用 处 。 但 是 ， 我 们 可 以 以 此 构建 一 个 有 意 
义 的 变量 〈 出 售 时 房屋 的 使 用 时 间 ) 。 


因此 ， 需 要 定义 新 的 变量 Age， 即 服务 出 售 年 份 减 去 其 建筑 年 份 。 然 后 ， 可 从 数值 


变量 中 移 除 YearBuilt 变量 ， 并 利用 数值 变量 列表 中 的 Age 变量 予以 替换 。 当 再 次 进行 给 


制 时 ，Age 的 分 布 状态 如 图 


4.34 所 示 。 


° 图 中 用 的 单位 是 平方 英尺 ， 书 中 单位 与 图 中 单位 保持 一 致 。 
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housing['Age'] = housing[“YrSold*] - housing["yearBuilt'] 
numerical_vars.remove( ‘YearBuilt’) 
numerical vars.append("Age') 


In [16]: housing[numerical_vars].hist(edgecolor="black', bins=15, figsize=(14, 5), layout = (2,4)); 


1stFIrSF 2ndFirsF Age BedroomabvGr 
mo 


1000 2000 3000 4000 0 500 1000 1500 2000 50 100 0 2 4 6 8 
LotArea OverallCond OverallQual SalePrice 


0 o 
0 。 5000010000Q5000G00000 © — 200000 400000 600000 


图 4.34 
从 图 4.34 中 可 以 看 到 ， 包 含 较 大 柱状 图 的 Age 变量 位 于 0 处 ， 这 也 表明 ， 大 量 的 房 
屋 已 被 售 出 ， 且 大 约 400 套 新 房子 已 被 售 出 。 
46.3 ”类 别 变量 


柱状 图 是 类 别 变 量 的 推荐 绘图 类 型 。 当 在 pandas 中 针对 类 别 变量 绘制 柱状 图 时 ， 可 使 
用 pandas Series 对 象 SaleCondition， 计 算 value_counts 并 于 随后 使 用 plot0 方 法 ， 如 图 4.35 
所 示 。 


In [17]: | housing['SaleCondition'].value_counts().plot(kind='bar', title='SaleCondition'); 


SaleCondition 


图 4.35 
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当 执 行 图 4.35 中 的 代码 行 时 ， 将 得 到 SaleCondition 变量 中 不 同类 别 的 计数 结 因 
此 ， 大 多 数 房屋 在 Normal 条 件 下 即 被 出 售 ， 其 中 数量 约 为 1200 套 ; pein 
条 件 下 被 出 售 。 

当 对 数据 集中 的 全 部 类 别 变量 执行 可 视 化 操作 时 ， 类 似 于 数值 变量 ， 并 不 存在 一 种 
方法 可 直接 利用 pandas 对 其 进行 操作 。 对 此 ， 可 通过 之 前 所 学 知识 实现 这 一 任务 (参见 
41 Ps 
因此 ， 可 利用 plt.subplot 函数 生成 一 个 绘制 窗口 和 一 个 轴 对 象 ， 即 2 行 4 列 的 网 格 ， 
共计 8 个 子 图 。 随后， 可 将 figsize 设置 为 (14,6)。 接 下 来 ， 可 编写 一 个 循环 语句 ， 用 于 遍 
Fi ax.flatten() 对 象 中 每 个 子 图 的 各 个 类 别 变量 。 

对 于 每 个 变量 ， 可 采用 pandas Series 对 象 计算 数值 计数 结果 。 随 后 可 使 用 plot0 方 法 
并 将 kind 设置 为 bar。 这 里 ， 唯 一 的 调整 是 绘制 subplot 对 象 和 loop 变量 中 的 柱状 图 。 最 
后 ， 可 针对 子 图 调用 tight_layout， 以 实现 较 好 的 输出 效果 ， 如 图 4.36 所 示 。 


: fig, ax = plt.subplots(2,4, figsize=(14,6)) 
eee le E GEE 
using [var] .v unts() .plot(kind=" bplot, title= 


fig.tight_layout() 


MSZoning Neighborhood 


1000 


BI 4.36 


可 以 看 到 , 通过 图 4.36 中 的 4 行 代码 , 即 可 生成 相对 复杂 且 内 容 丰富 的 可 视 化 效果 。 

为 了 更 好 地 理解 变量 和 SalePrice 之 间 的 关系 ， 可 编写 一 个 小 型 函数 ， 以 识别 小 于 30 
个 数值 的 分 类 级 别 。 随 后 ， 可 通过 apply0 方 法 将 该 函数 应 用 于 pandas DataFrame 中 的 各 
行 。 接 下 来 ， 通 过 一 条 for 循环 语句 检测 并 保存 大 于 30 个 观测 结果 的 分 类 级 别 ， 如 图 4.37 
所 示 。 
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In [19]: def identify_cat_above3@(series): 
counts = series.value_counts() 
return list(counts[counts>=30].index) 


In [26]: levels_to_keep = housing[categorical_vars].apply(identify_cat_above3@, axis=@) 
levels_to_keep 


Out[2@]: MSZoning [RL, RM, FV] 
LotShape [Reg, IR1, IR2] 
Neighborhood [NAmes, Collgcr, OldTown, Edwards, Somerst, Gi.. 


CentralAir Ly, N] 
SaleCondition (Normal, Partial, Abnorml] 
MoSold [6, 7, 5, 4, 8, 3, 10, 11, 9, 12, 1, 2] 
YrSold [2009, 2007, 2006, 2008, 2010] 
dtype: object 


for var in categorical_vars: 
housing = housing. loc[housing[var].isin(levels_to_keep[var])] 


housing. shape 


(1246, 16) 


图 4.37 


当 执 行 上 述 代码 时 ， 将 会 得 到 少量 的 观测 结果 ， 即 16 个 变量 的 1246 个 观测 结果 。 
下 面 再 次 查看 之 前 显示 的 可 视 化 结果 ， 如 图 4.38 所 示 。 


In [23]: fig, ax = plt.subplots(2,4, figsize=(14,6)) 
for var, subplot in zip(categorical_vars, ax.flatten()): 
housing[var].value_counts().plot(kind='bar', bplot, title=var) 


fig.tight_layout() 


MSZoning Lotshape Neighborhood CentralAir 
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图 4.38 
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可 以 看 出 ， 图 4.38 中 并 未 包含 小 于 30 个 观测 结果 的 分 类 级 别 。 当 前 ，MSZoning 变 
量 、LotShape 变量 、SaleCondition 变量 均 包 含 了 3 个 分 类 级 别 。 


4.7 变量 间 的 关系 


不 同 变量 间 的 关系 可 通过 matplotlib 的 命名 空间 图 实现 可 视 化 效果 。 其 中 ， 散 点 图 常 
用 于 可 视 化 两 个 数值 变量 间 的 关系 ; 箱 形 图 用 于 数值 变量 和 类 别 变 量 间 的 可 视 化 关系 ; 
复杂 条 件 图 则 用 于 多 个 变量 的 可 视 化 效果 。 
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当 利 用 pandas 生成 散 点 图 时 ， 全 部 所 需 工 作 是 使 用 图 命名 空间 。 在 图 命名 空间 内 ， 
可 采用 scatter() 方 法 并 传递 x 和 y 值 ， 如 图 4.39 所 示 。 


In [24]: housing.plot.scatter(x='1stFlrsF', y='SalePrice'); 


AstFirSF 


图 4.39 
从 图 4.39 中 可 以 看 出 ，1stFlrSF 和 SalePrice 之 间 具 有 正 关系 。 因 此 ， 变 量 lstFIrSF 
绘制 于 x 轴 上 ， 而 变量 SalePrice 绘制 于 y 轴 上 。 图 中 可 清晰 地 看 到 ， 两 个 变量 间 存 在 正 
关系 一 一 变量 lstFlrSF 越 大 ， 则 房屋 的 销售 价格 就 越 高 。 
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seaborn 提供 了 一 个 名 为 jointplot 的 函数 ， 除 了 能 够 生产 散 点 图 之 外 ， 该 函数 还 可 生 
成 边际 图 ， 如 图 4.40 所 示 。 


In [25]: sns.jointplot(x="1stFlrSF’, y='SalePrice’', data=housing, joint_kws={"s": 10}); 


—— a a 


pearsonr = 0.61; p = 1.6e-128 


SalePrice 
è 
S 
S 
s 


T T T T T 
1000 1500 2000 2500 3000 
1stFIrSF 


图 4.40 


在 图 4.40 所 示 的 边际 图 中 ， 可 以 看 到 变量 在 x 轴 和 yy 轴 上 的 分 布 状态 。 据 此 ， 不 仅 
以 查看 两 个 变量 间 的 关系 ， 还 可 进一步 观察 到 变量 各 自 的 分 布 方式 。 

如 果 打 算 同 时 显示 多 幅 散 点 图 ， 可 创建 一 个 散 点 图 矩阵 ， 利 用 pairplot 函数 ，seabom 
可 方便 地 实现 这 一 功能 。 对 此 ， 可 传递 一 个 包含 数值 变量 的 DataFrame， 对 应 结果 即 为 散 
点 图 矩阵 ， 如 图 4.41 所 示 。 

其 中 , 每 幅 散 点 图 均 体 现 了 DataFrame 中 变量 间 的 相互 关系 。 建议 同时 使 用 不 超过 4 
个 或 5 个 变量 ， 否 则 ， 可 视 化 效果 将 难以 得 到 完美 地 展示 。 

此 处 采用 了 4 个 变量 ， 其 中 之 一 是 房屋 的 SalePrice。 不 难 发 现 ，SalePrice 和 另 一 个 
变量 间 存 在 正 关 系 。 随 后 ，LotArea 显示 了 OverallQual 和 SalePrice 间 的 关系 。 这 一 关系 
仍 呈 现 为 正 关系 ， 但 不 如 OverallCond 那样 明显 。 


z| 
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: sns.pairplot(housing[numerical_vars[:4]], plot_kws={"s": 10}); 
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图 4.41 
图 4.42 显示 了 多 个 数值 变量 与 SalePrice 之 间 的 关系 。 
通过 观察 可 知 ，SalePrice 与 1stFlrSF 和 2ndFlrSF 之 间 具 有 较为 明显 的 正 关 系 。 此外， 
Age 和 SalePrice 变量 间 有 具有 非 线 性 的 负 关 系 。 具 体 来 说 ， 随 着 Age 增加 ，SalePrice =I 
下 降 趋 势 ， 因 而 这 一 关系 表示 为 曲线 而 非 直线 。 
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sns.pairplot(housing[[ ‘SalePrice’ ]+numerical_vars[4:]], plot_kws-{"s": 10}); 


In [27]: 
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图 4.42 


47.2 EE 


这 里 将 考查 数据 集中 的 类 别 变量 和 房屋 SalePrice 之 间 的 关系 。 对 此 ， 箱 形 攻 
箱 须 图 ) 则 是 查看 数值 和 类 别 变量 关系 的 一 种 标准 可 视 化 方式 。 箱 形 图 通过 其 四 分 位 数 
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表述 一 组 数字 。 另 外 ， 箱 形 图 也 包含 垂直 方向 上 扩展 的 直线 ， 表 示 上 、 下 四 分 位 数 之 外 
的 变化 。 其 中 ， 某 些 异 常 值 可 以 绘制 为 单独 的 点 。 箱 形 图 是 非 参 数 化 的 ， 并 显示 了 统计 
总 体 样本 的 变化 ， 而 没有 对 潜在 的 统计 分 布 做 出 任何 假设 。 


kn [38]: 


下 面 通过 箱 形 图 考查 alePrice 与 其 他 类 别 变 量 之 间 的 关系 ， 如 图 4.43 所 示 。 


conditional plot = sns.Facetcrid(housing, col: ‘on="Salecondition", hue="Centralair") 
conditional_plot.map(plt.scatter, “Age”, "Sal i legend(); 


SaleCondition = Normal | YrSold = 2006 SeleConcition = Normal | Yrsot «ition = Normal | YrSold = 2008 SaleCondition = Normal | YrSoid = 2009 SeleCondition = Normal | YiSold = 2010 


x ksa. bsi 


jaleConaition = Abnorm | YrSold = 20065aieCondition = Abnorm | YrSold = 2007SaleConditon = Abner | YrSols = 2008SaleCandition = Abnorm | YrScld = 2009SaieConditon = Abnorm! | YrSoid = 2010 


Fl 4.43 
这 里 显示 了 变量 CentralAir CEF x 轴 ) 和 变量 SalePrice (AF y 轴 ) 的 箱 形 图 。 不 


难 发 现 ， 对 于 未 配置 的 CentralAir 房屋 ，SalePrice 较 低 ， 房 价 的 分 布 也 低 于 配置 了 CentralAir 


的 房 


的 多 
果 ， 


价 的 


屋 。 

除 此 之 外 ， 类 似 于 散 点 图 ， 还 可 以 在 一 次 可 视 化 操作 中 展示 多 个 箱 形 图 。 根 据 之 前 
子 图 技术 , 可 遍历 每 幅 子 图 ， 并 通过 Python 生成 类 别 变量 和 SalePrice 间 的 可 视 化 结 
如 图 4.44 所 示 。 
通过 观察 可 知 ， 变 量 MSZoning 在 类 别 中 的 分 布 有 所 不 同 ， RM 分 类 包含 了 较 低 售 
分 布 状态 ; 在 Neighborhood 变量 中 ， 可 以 看 到 ， 不 同 的 社区 也 会 存在 不 同 的 分 布 


图 4.45 显示 了 Neighborhood 和 SalePrice 变量 之 间 的 关系 。 
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: fig, ax = plt,subplots(3,3, figsize=(14,9)) 
for var, subplot in 7ip(categorical_vars, ax.flatten()): 
sns.boxplot(x=var, y='SalePrice’, data=housing, ax=subplot) 


Fig. tight_layout() 
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图 4.44 


fig, ax = plt.subplots(figsize=(14,4)) 
sns.boxplot(x="Neighborhood', y='SalePrice’, datazhousing, ax=ax); 


由 
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图 4.45 


可 以 看 到 ， 不 同 的 社区 包含 了 不 同 的 价格 分 布 状 态 。 对 此 ， 一 种 较 好 的 方法 是 按照 
价格 的 高 低 以 排序 方式 执行 可 视 化 操作 。 这 可 通过 参数 order=sorted 方便 地 予以 实现 。 
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4.46 显示 了 根据 中 间 价 格 排序 Neighborhood 后 的 结果 


: fig, ax = plt.subplots(figsize=(14,4)) 
sns.boxplot(x="Neighborhood’, y="SalePrice’, data=housing, order=sorted_nb, ax=ax) 
plt.xticks(rotation="vertical'); 
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图 4.46 


在 根据 中 间 价 格 对 社区 进行 排序 后 ， 可 以 看 到 不 同 社区 中 价格 分 布 状态 的 可 视 化 结 
R. 在 最 便宜 的 社区 中 ， 房 屋 的 中 间 价 格 约 为 100000 美元 ; 而 在 最 贵 的 社区 中 ， 房 屋 的 
中 间 价 格 在 300000 美元 左右 。 

可 以 看 到 ， 对 于 某 些 社区 来 说 ， 价 格 之 间 的 差别 很 小 。 对 于 较 小 的 箱 形 图 ， 这 表明 
全 部 价格 间 彼 此 接近 ; 而 对 于 某 些 较 大 的 箱 形 图 ， 价 格 分 布 则 存在 较 大 的 偏差 。 因 此 ， 
根据 视觉 显示 效果 ， 可 以 查看 到 大 量 的 信息 。 
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条 件 图 相对 复杂 , 并 可 于 其 中 对 一 个 变量 进行 条 件 设 置 。 例 如, 如果 对 Neighborhood 
进行 条 件 设置 ， 则 可 利用 FacetGrid 函数 生成 条 件 图 。 因 此 , 我 们 将 对 Neighborhood 设置 
条 件 ， 并 于 随后 生成 OverallQual 和 SalePrice 变量 间 的 散 点 图 ， 如 图 4.47 所 示 。 

此 处 ， 在 可 视 化 结果 中 的 每 幅 散 点 图 均 在 各 个 社区 上 设置 了 条 件 。 如 果 全 部 社区 中 
两 个 变量 间 具 有 正 关系 ， 那 么 就 可 以 说 ， 观 测 到 的 关系 适用 于 每 个 社区 。 

如 果 打 算 可 视 化 多 个 变量 ， 可 通过 FacetGrid 方法 生成 条 件 图 ， 并 传递 类 别 变量 作为 
行 和 列 ， 同 时 辅 以 额外 的 类 别 变 量 并 通过 不 同 的 颜色 显示 散 点 图 的 绘制 点 。 根 据 这 一 新 
的 特性 ， 可 对 Age 和 SalePrice 间 的 关系 执行 可 视 化 操作 ， 但 此 处 对 房屋 的 销售 年 份 和 
SaleCondition 变量 设置 条 件 ， 对 应 结果 如 图 4.48 所 示 。 
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conditional_plot = sns.FacetGrid(housing, col="Neighborhood", col_wrap=4) 
conditional_plot.map(plt.scatter, “Overallqual", “SalePrice”); 
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图 4.47 


其 中 ， 每 一 列 对 应 于 每 一 年 (2006—2010 E) ; 三 行 则 分 别 对 应 于 Normal 条 件 、 
Abnormal 条 件 和 Partial 条 件 。 我 们 还 发 现 ，Age 与 SalePrice 之 间 的 负 关 系 在 Normal 行 
的 每 一 个 子 分 组 中 都 成 立 ， 并 且 随 着 年 龄 的 增长 ， 它 趋 于 下 降 势 态 。 深 色 点 对 应 的 是 那 
些 没 有 安装 中 央 空 调 〈CentralAir) 的 房子 ， 因 为 大 部 分 的 深 色 点 位 于 50 一 100， 因 而 可 
以 判断 出 它们 是 一 些 老 旧 的 房子 。 从 图 4.48 中 还 可 以 看 到 ，“SaleCondition 为 Partial” 
这 一 类 观测 结果 较 少 ， 而 且 ， 对 于 大 多 数 观 测 结果 来 说 ， 房 屋 的 年 龄 为 0。 
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In [38]: conditional plot = sns.FacetGrid(housing, col="Yrsold", row="SaleCondition", hue='Centralair') 


conditional _plot.map(plt.scatter, * saleprice”).add_legend(); 
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图 4.48 
当前 示例 说 明 ， 我 们 可 以 很 方便 地 生成 复杂 的 可 视 化 结果 ， 以 及 如 何 从 可 视 化 结果 


中 获得 有 价值 的 信息 。 作 为 数据 分 析 人 员 ， 我 们 不 仅 应 该 尝试 如 何 生 成 这 些 可 视 化 结果 ， 


还 应 该 从 中 获取 一 些 有 价值 的 见解 。 


48 本 章 小 结 


本 章 讨论 了 matplotlib 及 其 工作 方式 。 除 此 之 外 ,我 们 还 学 习 了 面向 对 象 接口 和 pyplot 


接 


之 间 的 差异 。 另 外 , 本章 还 介绍 了 一 些 常见 的 可 视 化 操作 , 并 探讨 了 如 何 通过 seaborn 


和 pandas 执行 可 视 化 操作 。 最 后 ， 本 章 还 阐述 了 变量 间 关 系 的 可 视 化 方式 ， 并 在 真实 的 
数据 集 上 执行 了 探索 性 数据 分 析 。 


第 5 章 将 考查 如 何 利 用 Python 执行 统计 计算 。 


本 章 


5 Python 统计 计算 


主要 讨论 Python 科学 计算 库 SciPy， 这 可 视 为 一 个 Python 的 科学 计算 工具 箱 。 


另外 ， 本 章 还 将 讨论 统计 学 子 包 ， 并 以 此 执行 多 种 统计 计算 ， 包 括 概率 计算 、 概 率 分 布 
以 及 置信 区 间 。 最 后 ， 我 们 还 将 在 真实 的 数据 集 上 执行 假设 测试 。 


Ooooc 


概率 。 
假设 测试 。 
执行 统计 测试 。 


5.1 SciPy 简介 


SciPy 是 Python 中 执行 科学 计算 的 一 种 工具 ， 同 时 也 是 一 种 基于 Python 生态 环境 的 
开源 软件 ， 涉 及 数学 、 科 学 计算 和 工程 计算 。SciPy 针对 常见 的 科学 计算 提供 了 各 种 工具 


箱 。 对 于 科学 计算 或 工程 领域 ， 相 关 工 具 可 能 位 于 SciPy 的 子 包 中 。SciPy 的 子 包 主要 包 


括 以 下 内 容 。 


OOOCOocoOod 
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scipy.io: 该 数据 包 提 供 了 文件 的 输入 /输出 处 理工 具 。 
scipy.special: 该 数据 包 提供 了 特定 函数 的 处 理工 具 。 
scipy.linalg: 该 数据 包 提 供 了 线性 代数 处 理工 具 。 
scipy.fftpack: 该 数据 包 提供 了 快速 傅 里 叶 转 换 处 理工 具 。 
scipy.stats: 该 数据 包 提供 了 统计 和 随机 数字 的 处 理工 具 。 
scipy.interpolate: 该 数据 包 提供 了 插值 处 理工 具 。 
scipy.integrate: 该 数据 包 提 供 了 数值 积分 处 理工 具 。 
scipy.signal: 该 数据 包 提供 了 信号 处 理工 具 。 
scipy.ndimage: 该 数据 包 提 供 了 图 像 处 理工 具 。 


统计 子 包 


通过 导入 stats 模块 ， 可 加 载 或 使 用 统计 子 包 ， 该 子 包 包含 了 大 量 的 概率 分 布 以 及 不 
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断 增长 的 统计 函数 库 。 由 于 统计 是 数据 科学 中 的 核心 内 容 ， 因 而 此 类 软件 包 针对 数据 分 
析 和 数据 科学 来 说 ， 可 视 为 一 种 较 好 的 计算 工具 。 在 本 章 的 讲解 过 程 中 ， 将 会 学 习 到 如 
何 利用 Python 执行 一 些 较为 常见 的 统计 计算 ， 并 利用 这 些 统计 子 包 进一步 理解 相关 的 数 
据 集 (其 中 包含 了 学 生 饮 酒 信息 〉。 
按照 下 列 顺序 ， 本 章 将 利用 Scipy 中 的 stats 子 包 执行 一 些 常见 的 统计 计算 。 
(1) 引入 数据 集 。 
(2) 计算 置信 区 间 。 
(3) 执行 概率 计算 。 
下 面 在 Jupyter Notebook 中 考查 学 生 饮 酒量 调查 项 目 ， 该 项 目 与 学 生 的 饮酒 行为 相 
关 。 在 该 项 目 中 ， 所 用 的 数据 集 包 含 了 来 自 两 所 公立 学 校 的 学 生 信息 ， 该 数据 集 源 自 真 
实数 据 ， 旨 在 研究 学 生 的 饮酒 行为 与 学 业 成 绩 之 间 的 关系 。 此 处 所 使 用 的 数据 集 来 自 以 
下 两 个 渠道 ,学校 的 调查 报告 、 新 生 所 回答 的 问卷 。 
该 数据 集中 涵盖 了 30 多 个 变量 ， 这 将 有 助 于 提高 对 问题 的 分 析 能 力 。 下 列 内 容 显 示 
了 该 数据 集中 的 全 部 变量 。 
O school: 该 变量 表示 学 生 的 学 校 (二 元 变量 : Gabriel Pereira 表示 'GP'; Mousinho 
da Silveira 表示 为 'MS') 。 
sex: 该 变量 表示 学 生 的 性 别 〈 二 元 变量 : T' 表 示 女 性 ，'M' 表 示 男 性 ) 。 
age: 该 变量 表示 学 生 的 年 龄 (数值 变量 : 位 于 15 一 22) 。 
address: 该 变量 表示 学 生 的 家 庭 住 址 (二 元 变量 : VU' 表 示 城 市 ，RR' 表 示 乡 村 ) 。 
famsize: 该 变量 表示 家 庭 成 员 数 二 元 变量 :LE3' 表 示 小 于 或 等 于 3 A; 'GT3' 
RAKF 3A) © 
O Pstatus: 该 变量 表示 居住 状态 〈 二 元 变量 : TERSIERE: ARRA 
独居 住 ) 。 
O Medu: 该 变量 表示 母亲 受 教育 程度 〈 数 值 变量 : 0 表示 未 接受 过 任何 教育 ; 1 
表示 初等 教育 ，2 表示 5 年 级 一 9 年 级 ; 3 表示 中 等 教育 ，4 表示 高 等 教育 ) o 
O Fedu: 该 变量 表示 父亲 受 教育 程度 〈 数 值 变量 : 0 表示 未 接受 过 任何 教育 : 1 K 
示 初 等 教育 ，2 表示 5 年 级 一 9 年 级 ; 3 表示 中 等 教育 ，4 表示 高 等 教育 ) o 
Qh Mjob: 该 变量 表示 母亲 的 工作 状态 (nominal: {'teacher', ‘health’, ‘services’, 
'at_home', 'other') 。 
口 Fjob: 该 变量 表示 父亲 的 工作 状态 (nominal: 如 'teacher'"、'health'、'services'、 
'at_home', 'other') 。 
Q reason: 该 变量 表示 选取 学 校 的 原因 (nominal: 如 home'、'Teputation'、'course'、 


Oooo 


证 


口 


DODD 
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‘other') 。 

guardian: 该 变量 表示 学 生 的 监护 人 (nominal: 包括 mother、'father、'other) 。 
traveltime: 该 变量 表示 住址 距离 学 校 需 要 的 时 间 (数值 变量 :1 表示 小 于 15 分 
钟 ，2 表示 15~30 分 钟 ，3 表示 30 分 钟 一 1 小 时 ; 4 表示 大 于 1 小时) 。 
studytime: 该 变量 表示 每 周 的 学 习 时 间 (数值 变量 : 1 表示 小 于 2 小 时 ; 2 表示 
2 一 5 小 时 ; 3 表示 5 一 10 小 时 ; 4 表示 大 于 10 小 时 ) 。 

failures: 该 变量 表示 挂 课 数 〈 数 值 变量 : 1 和 n<3 或 4 次 ) 。 

schoolsup: 该 变量 表示 是 否 接受 额外 的 教育 支持 〈 二 元 变量 : yes no) 。 
famsup: 该 变量 表示 是 否 包 含 家 教 〈 二 元 变量 : yes Kno) 。 

paid: 该 变量 表示 学 科 (Math 或 Portuguese) 中 是 否 包含 额外 的 付费 课程 (二 元 
变量 : yes 或 n0) 。 

activities: 该 变量 表示 课外 活动 (二 元 变量 : yes E no) 。 

nursery: 该 变量 表示 是 否 上 过 幼儿 园 (二 元 变量 : yes 或 no) 。 

higher: 该 变量 表示 是 否 打 算 接受 高 等 教育 (二 元 变量 : yes 或 no) 。 

internet: 该 变量 表示 家 中 是 否 可 访问 互联 网 (二 元 变量 : yes 或 n0) 。 
romantic: 该 变量 表示 恋爱 关系 状况 (二 元 变量 : yes no) 。 

famrel: 该 变量 表示 家 庭 关 系 状 况 〈 数 值 变量 : 1 一 5， 分 别 代表 较 差 一 较 好 ) 。 
freetime: 该 变量 表示 课余 时 间 〈 数 值 变量 : 1 一 5， 分 别 代表 较 少 一 较 多 ) 。 
goout: 该 变量 表示 与 朋友 的 外 出 时 间 (数值 变量 : 1 一 5, 分 别 代表 较 少 一 较 多 ) 。 
Dale: 该 变量 表示 工作 日 的 饮酒 量 数值 变量 : 1 一 5， 分 别 代表 较 低 一 较 高 ) 。 
Wale: 该 变量 表示 周末 的 饮酒 量 〈 数 值 变量 : 1 一 5， 分 别 代表 较 低 一 较 高 ) o 
health: 该 变量 表示 当前 健康 状况 〈 数 值 变量 : 1 一 5， 分 别 代表 较 差 一 较 好 ) 。 
absences: 该 变量 表示 缺 课 状况 〈 数 值 变量 : 0 一 93) 。 


年 级 与 课程 科目 的 关系 如 下 。 


(m) 
Q 
(m) 


Gl: 代表 第 一 学 期 成 绩 〈 数 值 变量 : O~20) 。 
G2: 代表 第 二 学 期 成 绩 〈 数 值 变量 : 0 一 20) 。 
G3: 代表 期 末 考 试 成 绩 〈 数 值 变量 : 0 一 20， 同 时 也 是 输出 结果 ) 。 


本 节 主 要 关注 以 下 3 个 变量 。 


口 
口 
口 


acl: 从 当前 数据 中 定义 该 变量 ， 以 存储 饮酒 消耗 量 。 
G3: 该 变量 用 于 存储 课程 的 期 末 考 试 成 绩 。 
gender: 该 变量 用 于 存储 学 生 的 性 别 。 


下 面 加 载 数据 集 ， 如 图 5.1 所 示 。 
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; student.head() 


school sex age address famsize Pstatus Medu Fedu Mjob Fjob ... famrel freetime goout Dale Wal 


GP F U A 4 at_home teacher ... 4 3 


GP athome other 


0 
1 
2 GP 
3 
4 


1 5 
1 athome other . 4 
GP 4 health services 3 
3 4 


GP other other 


5 rows x 33 columns 


图 5.1 
首先 设置 一 个 酒精 消耗 量变 量 ， 并 于 其 中 定义 一 个 名 为 alcohol index 的 


4 


3 
2 
2 
2 


表示 学 生 饮 酒量 〈 平 时 和 周末 ) 的 加 权 平均 值 ， 如 下 所 示 。 


student. rename (columns={'sex':'gender'}, inplace=True) 


1 


1 
2 
1 
1 


Ph 间 变 量 ， 


student['alcohol index'] = (5*student['Dalc'] + 2*student['Walc'])/7 


# Alcohol consumption level 
student['acl'] = student['alcohol index'] < = 2 


student['acl'] = student['acl'].map({True: 'Low', False: 'High'}) 


随后 通过 alcohol index 变量 将 学 生 分 为 几 组 。 如 果 alcohol index 小 于 或 等 于 2， 该 


组 的 酒精 消耗 量 较 低 ， 如 果 alcohol index 大 于 2， 则 该 组 酒精 消耗 量 较 高 。 


5.1.2 ”置信 区 间 


本 节 将 首先 计算 置信 区 间 。 其 中 ， 要 计算 置信 区 间 的 第 一 个 变量 是 期 末 成 绩 和 我 
们 感 兴趣 的 统计 结果 ， 也 就 是 均值 。 此 处 查看 数据 集中 的 sample size， 且 包含 了 649 个 
观测 结果 。 考 虑 到 采样 大 小 大 于 30， 因 而 可 通过 中 心 极限 定理 计算 置信 区 间 ， 如 图 5.2 


所 示 。 


sample_size = student.shape[@] 
print(sample_size) 


649 


图 5.2 


据 此 ， 可 通过 正 态 分 布 针 对 某 个 变量 的 均值 计算 置信 区 间 。 对 此 ， 仅 需 使 


个 数值 。 


到 以 下 3 
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口 变量 的 采样 均值 。 
QO ”公式 的 标准 误差 。 
OQ ”置信 度 。 
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当前 已 知晓 如 何 计算 采样 均值 ， 如 图 5.3 所 示 。 可 以 看 出 ， 期 末 成 绩 对 应 的 变量 为 


G3， 其 输出 结果 为 11.906009244992296 。 


sample_mean_grade = student['G3'].mean() 
sample_mean_grade 


11.906009244992296 


图 5.3 


在 图 5.4 中 ,可 以 看 到 计算 采样 均值 的 具体 应 用 ， 同 时 还 将 计算 标准 误差 。 至此, 我 


们 得 到 了 所 需 的 前 两 个 数字 。 当 计算 置信 区 间 时 ， 还 将 使 用 到 stats 子 包 中 的 norm 对 象 。 
norm 对 象 定义 了 一 个 interval0 方 法 ， 并 接收 3 个 输入 数据 ， 即 我 们 所 需要 的 3 个 数值 。 


13]: std_error_grades = student['G3'].std()/sqrt(sample_size) 


14]: stats.norm.interval(0.95, loc=sample_mean_grade, scale=std_error_grades) 


Out[14]: (11.65745768566587, 12.154560804318722) 


图 5.4 


其 中 ， 第 一 个 数值 为 当前 区 间 的 置信 度 ， 即 0.95. loc 参数 表示 变量 的 sample_mean; 


scale 参数 表示 刚刚 计算 的 std_error。 可 以 看 到 ， 针 对 期 末 成 绩 的 均值 ，95% 的 置信 


区 间 


位 于 11.65745768566587 一 12.154560804318722。 现 在 我 们 知道 了 如 何 计算 均值 、 标 准 误 


差 和 范 数 的 置信 区 间 ， 下 面 考 查 一 个 例子 ， 看 看 如 何 计算 一 个 比例 的 置信 区 间 。 


这 里 将 使 用 刚刚 创建 的 变量 ， 即 酒精 的 消费 水 平 ， 并 查看 酒精 消费 水 平 较 高 的 学 生 


比例 的 置信 区 间 。 计 算 过 程 也 较为 类 似 ， 也 就 是 说 ， 需 要 使 用 到 以 下 3 个 数字 。 
口 样本 比例 。 
口 样本 标准 偏差 。 
O ”置信 度 。 

针对 现 有 比例 ， 标 准 误差 的 计算 公式 为 


sr- PED 
n 


TT 


EE, p 表示 为 样本 比例 。 下 面 考查 酒精 消费 较 高 的 学 生 的 样本 比例 。 通 过 图 5.5 


= 100° 
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可 以 看 到 ， 该 值 约 为 0.255778。 


In [ 


Out[ 


11]: student['acl'].value_counts(normalize=True) 


11]: Low 0.744222 
High 0.255778 
Name: acl, dtype: float64 


图 5.5 


借助 于 high_prop 变量 ， 下 列 代码 将 使 用 该 公式 计算 标准 误差 和 置信 区 间 。 


high prop = student['acl'] .value counts (normalize=True) ['High"] 
std_error prop = sqrt (high _prop*(1-high_prop)/sample_ size) 


但 这 一 次 ， 将 针对 学 


图 5.6 所 示 。 


比例 计算 98% 的 置信 区 间 〈 在 酒精 消费 较 高 的 人 群 中 ) ， 如 


In [13]: stats.norm.interval(@.98, loc=high_prop, scale=std_error_prop) 


Out[13]: (@.21593666225148048, @.2956195781183193) 


图 5.6 


输出 值 为 0.21593666225148048 一 0.2956195781183193。 因 此 ， 对 于 当前 学 生 比 例 ， 
0.25 似乎 是 一 个 较 好 的 猜测 值 。 
记 住 ， 这 些 仅 是 样本 中 的 计算 ， 同时， 我们 使 用 推论 统计 对 相关 人 群 进行 判断 。 


5.1.3 ”概率 计算 


假设 总 体 概率 的 对 应 值 为 0.25， 下 面 通过 该 值 进行 统计 计算 。 
stats 数据 包 中 存在 多 种 概率 分 布 ， 进 而 可 据 此 进行 模拟 、 计 算 随 机 变量 并 执行 概率 


计算 。 下 面 考查 相 
假设 发 现 一 名 


关 示 例 并 对 某 些 问题 予 
酒精 消费 水 平 较 高 的 学 和 


以 解答 。 
E 的 概率 是 0.25， 如 果 我 们 有 一 个 10 人 的 班级 ， 


那么 ， 发 现 5 名 酒精 消费 水 平 较 高 的 学 生 的 概率 是 多 少 ? 

对 此 ， 可 通过 二 项 分 布 计算 这 一 概率 。 另 外 ，stats 数据 包 中 定义 了 binom 对 象 ， 其 
中 ， 定 义 了 一 个 名 为 概率 质量 函数 的 方法 ， 即 pmf， 我 们 需要 针对 二 项 分 布 提供 pmf 所 
需 的 参数 。 当 前 ， 我 们 关注 的 是 在 一 组 10 名 学 生 中 计算 5 名 酒精 消费 水 平 较 高 的 学 生 的 
概率 ， 且 总 体 概率 是 0.25。 具 体 的 计算 过 程 和 概率 结果 如 图 5.7 所 示 。 
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in [14]: stats.binom.pmf(k=5, n=10 


ut[14]: @.@58399290439453194 


图 5.7 


可 以 看 到 ， 当 前 事件 的 概率 为 0.058399200439453194。 当 然 ， 也 可 同时 计算 多 个 概 
率 。 在 图 5.8 中 ， 一 方面 ， 获 取 特定 学 生 数 量 的 概率 位 于 x 轴 上 ， 而 柱状 图 则 表示 在 10 
名 学 生 组 成 的 班级 中 ， 获 取 酒 精 消费 水 平 较 高 的 学 生 的 概率 ， 另 一 方面 ， 一 般 难以 找到 
这 样 的 班级 ， 其 全 部 学 生 的 酒精 消费 水 平均 较 高 。 另外， 在 图 5.8 中 ， 还 可 查看 概率 质量 
函数 一 侧 的 累积 分 布 函数 。 


In [15]: | def plot_probs_n(n): 
fig, ax = plt.subplots(1,2, figsize = (14,4)) 
ax[@].bar(left=arange(n+1), height=stats.binom.pmf(k=arange(n+1), n=n, p=0.25)) 
ax[@] .set_xticks(arange(n+1)) 
ax[@].set_title( ‘Probability mass function’) 
ax[1].plot(stats.binom.cdf(k=range(n+1), n=n, p=0.25)) 
ax[1].set_xticks(arange(n+1)) 
ax[1].set_title('Cumulative distribution function') 


plot_probs_n(10) 


Probability mass function Cumulative distribution function 


图 5.8 


因此 ， 可 使 用 binom 分 布 中 的 cdf0 方 法 计算 累积 分 布 函数 。 
52 假设 测试 


本 节 将 执行 假设 测试 ， 以 回答 “饮酒 量 是 否 会 对 学 生 的 成 绩 带 来 影响 ”这 一 类 问题 。 
本 节 主 要 涉及 以 下 主题 。 
口 ” 零 假设 测试 框架 。 
D ”对 总 体 方差 的 相等 性 进行 测试 。 
口 ”对 总 体 均 值 的 相等 性 进行 + 测试 。 
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随后 ， 我 们 将 根据 所 得 结果 回答 上 述 问题 。 对 此 ， 将 采用 Jupyter Notebook 快速 浏览 
一 下 相关 步骤 ， 这 也 是 采用 假设 测试 回答 某 个 问题 时 的 常见 作法 ， 有 具体 如 下 。 

(1) 此 处 将 建立 两 个 相互 竞争 的 假设 ， 即 零 假 设 和 备 择 假设 (alternative hypothesis) 。 
答 的 问题 类 型 决定 了 有 具体 采用 哪 一 种 假设 。 

(2) 这 里 将 提前 设置 一 个 显著 性 水 平 (significance level) ， 称 作 Alpha。 通 常 ， 研 究 
人 员 或 数据 分 析 师 一 般 会 选取 5% 或 0.05; 其 他 常见 的 选择 值 还 包括 0.01 或 0.1( 即 10%)。 

G) E p 值 中 计算 测试 统计 结果 ， 并 于 随后 将 这 一 p 值 与 Alpha 值 进行 比较 。 

(4) 对 于 是 否 采用 零 假 设 ， 可 根据 p 值 和 显著 性 水 平 的 比较 结果 ， 选 择 拒绝 或 接受 
零 假 设 。 

G) 最 终 ， 在 对 应 结果 与 最 初 问题 之 间 ， 需 要 给 出 一 个 总 体 的 结论 。 


所 


互 


5.3 ”执行 统计 测试 


在 进行 统计 测试 之 前 ， 下 面 首先 考查 一 些 统计 函数 ， 进 而 可 通过 scipy 数据 包 进 行 测 
试 ， 具 体 如 下 。 
kurtosistest(a[, axis, nan policy]): 该 数据 包 用 于 测试 数据 集 是 否 包含 正太 峰 度 。 
normaltest(a[, axis, nan_policy]): 该 数据 包 用 于 测试 样本 是 否 不 同 于 正太 分 布 。 
skewtest(a[, axis, nan policy]): 该 数据 包 用 于 测试 斜 度 是 否 不 同 于 正 态 分 布 。 
pearsonr(x, y): 该 数据 包 用 于 计算 皮尔 森 相 关系 数 ， 以 及 非 相关 测试 的 p 值 。 
ttest_lsamp(a, popmean[, axis, nan_policy]): 该 数据 包 用 于 计算 一 组 分 值 的 平均 值 
的 t 测 试 。 
Q  ttest_ind(a, b[, axis, equal_var, nan_policy]): 该 数据 包 用 于 计算 两 个 独立 分 值 样本 
均值 的 t 测 试 。 
口 ttest_ind from stats(meanl, std1, nobs1, ...): 该 数据 包 用 于 对 描述 性 统计 中 两 个 独 
立 样本 的 均值 进行 +t 测试 。 
O ttest_rel(a, b[, axis, nan_policy]): 该 数据 包 用 于 计算 两 个 相关 分 值 样本 (a 和 b) 
上 的 t 测 试 。 
口 kstest(rvs, cdf[, args, N, alternative, mode]): 该 数据 包 用 于 执行 Kolmogorov 
Smirnov 拟 合 优 度 测试 。 
O chisquare(f_obs[, f_exp, ddof, axis]): 该 数据 包 用 于 计算 单 向 卡 方 测试 。 
ansari(x, y): 该 数据 包 用 于 执行 等 尺度 参数 的 Ansari-Bradley 测试 。 
Q  bartlett(*args): 该 数据 包 用 于 执行 Bartlett 的 等 方差 测试 。 


Ooooo 


口 
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O levene(args, *kwds): 该 数据 包 用 于 执行 Levene 的 等 方差 测试 。 
shapiro(x[, a, reta]): 该 数据 包 用 于 执行 Shapiro-Wilk 正 态 测试 。 
O anderson(x{, dist): 针对 来 自 特定 分 布 的 数据 ， 该 数据 包 用 于 执行 Anderson-Darling 
测试 。 
口 anderson ksamp(samples[, midrank]): 该 数据 包 用 于 执行 Anderson-Darlingk k 采 
样 测试 。 
上 述 内 容 展示 了 一 些 较 为 流行 的 统计 测试 。 如 果 读 者 访问 scipy.stats 子 包 中 的 文档 
(对 应 网 址 为 https://docs.scipy.org) ， 还 会 发 现 更 多 的 专项 测试 。 

下 面 通过 某 项 测试 回答 以 下 问题 ; 两 组 学 生 的 总 体 方差 是 否 相 等 ? 其 中 ， 一 组 学 生 
的 饮酒 量 较 低 , 而 另 一 组 学 生 的 饮酒 量 较 高 。 鉴于 该 问题 与 方差 相关 , 因而 可 采用 Bartlett 
测试 ， 其 零 假设 表明 ， 总 体 方差 是 相等 的 ， 如 图 5.9 所 示 。 


口 


In [18]: grades_low_acl = student['G3'][student['acl']=='Low'] 
grades_high_acl = student['G3'][student[ ‘acl’ ]=='High'] 
stats.bartlett(grades_low_acl, grades_high_acl) 


Out[18]: BartlettResult(statistic=1.1025085913378183, pvalue=@.29371623181175127) 


图 5.9 

图 5.9 中 显示 了 样本 中 的 方差 , 且 看 起 来 彼此 接近 。 下 面 通过 一 项 正规 的 测试 以 对 总 
体 方差 问题 得 出 某 些 结论 。 图 5.9 中 分 别 定义 了 表示 Low 分 组 中 学 生成 绩 的 向 量 、High 
分 组 学 生成 绩 向 量 ， 以 及 一 个 Bartlett 函数 。 相 应 地 ， 传 递 至 该 函数 的 唯一 内 容 即 是 刚刚 
创建 的 两 个 向 量 。 
此 处 须 关注 pvalue, 对 应 值 为 0.29371623181175127, 大 于 之 前 的 显著 性 水 平 , 即 5% 
或 0.05。 因 此 ， 根 据 该 测试 ， 我 们 不 能 排除 等 方差 的 零 假设 。 相 应 地 ， 可 假设 这 两 组 分 
数 源 自 具有 相同 方差 的 一 个 整体 。 
在 下 一 个 测试 中 ， 将 尝试 回答 下 列 问题 : 酒精 的 消耗 量 是 否 会 对 学 业 带 来 影响 ? 当 
查看 数据 或 样本 数据 的 可 视 化 结果 时 ， 可 以 看 到 两 组 学 生 的 成 绩 ， 或 者 说 平均 成 绩 ， 存 
在 着 非常 明显 的 差异 。 在 图 5.10 中 ， 与 酒精 消费 量 较 大 的 一 组 学 生 相 比 ， 饮 酒量 较 低 的 
一 组 学 生 其 成 绩 平均 值 较 高 。 
面 尝 试 构建 两 种 假设 。 针 对 当前 问题 ， 零 假设 可 描述 为 :两 组 期 末 成 绩 的 总 体 均 
值 是 相等 的 ， 备 择 假设 则 表明 ， 期 末 成 绩 的 总 体 均值 是 不 同 的 。 在 进行 任何 测试 之 前 ， 
需要 记 住 ， 全 部 测试 均 包含 了 某 些 假设 条 件 ， 当 前 即 定义 了 3 个 测试 假设 条 件 ， 并 验证 
这 3 个 假设 在 当前 情况 下 是 成 立 的 ， 包 括 第 3 个 假设 条 件 ， 即 方差 相等 一 一 我 们 刚刚 利 
用 之 前 的 测试 证 明了 这 一 点 。 
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fig, axes = plt.subplots(1,2, figsize = (14,4)) 
sns.boxplot(x='acl', y='G3', data=student, ax=axes[2]) 
sns.pointplot(x='acl', y='G3', data=student, ax=axes[1]); 
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图 5.10 
当 执 行 t 测 试 时 ， 可 使 用 stats 数据 包 中 的 ttest_ind 函数 。 其 间 ， 可 传递 包含 两 组 学 生成 
绩 的 两 个 向 量 ， 并 设置 一 个 附加 参数 以 表示 方差 是 相等 的 。 当 执行 该 测试 时 ， 可 回顾 一 下 之 
前 讨论 的 统计 结果 和 p 值 。 在 图 5.11 P, 可 以 看 到 op 值 较 低 ， 即 4.6036088303692686e-06。 


图 5.11 


总 之 ， 这 是 支持 备 择 假设 的 一 个 有 力 的 证 据 。 也 就 是 说 ， 当 比较 两 组 内 容 时 ， 成 绩 
的 总 体 均值 实际 上 是 不 同 的 。 因 此 ， 最 终结 论 如 下 : 当 分 析 两 组 成 绩 时 ， 二 者 间 在 统计 
学 意义 上 存在 着 显著 的 差异 。 由 于 高 酒精 摄 入 量 的 一 组 学 生 其 平均 值 低 于 另 一 组 学 生 的 
平均 值 ， 结 果 表 明 ， 酒 精 摄 入 量 对 学 生 的 学 业 存在 着 负面 影响 。 

下 面 通过 假设 测试 回答 以 下 问题 : 男 学生 的 饮酒 量 是 否 高 于 女 学 生 ? 这 一 问题 涉及 
以 下 两 个 主题 。 

Q ”对 关联 表 执 行 卡 方 测试 。 

CL ”对 两 个 关联 表 的 关系 执行 可 视 化 操作 。 

对 此 ， 可 尝试 在 Jupyter Notebook 进行 操作 ， 如 图 5.12 所 示 。 

在 图 5.12 中 可 以 看 到 ， 女 性 的 数量 多 于 男性 ， 且 低 饮 酒量 的 学 生 占 据 了 大 多 数 。 对 
于 关联 表 ( 也 称 作 交叉 表 ) ， 存 在 多 种 方法 可 对 其 进行 计算 。 这 里 将 采用 pandas 中 的 
crosstab 函数 并 传递 两 个 Series， 输 出 结果 表示 为 每 个 分 类 的 计数 值 。 当 考查 这 两 个 类 别 
变量 时 ， 还 可 能 涉及 4 种 分 类 。 因 此 ， 分 别 有 62 位 女性 和 104 位 男性 ， 其 酒精 摄 入 量 较 
高 。 另 外 ， 我 们 还 统计 了 低 酒 精 消 耗 量 的 女性 和 男性 数量 。 图 5.13 显示 了 此 类 数值 的 可 
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视 化 结果 ， 其 中 涵盖 了 具体 的 比例 数值 以 及 绝对 数量 。 


In [21]: fig, axes = plt.subplots(1,2, figsize = 
student[' gender’ ].value_counts().plot(ki 
student[‘acl'].value_counts().plot(kind="ber', es[1], title="Alcohol Consumption Level"); 


Gender Alcohol Consumption Level 


In [22]: gender_acl_table = pd.crosstab(student[‘acl'], student[' gender" ]) 
gender_acl_table 


Out[22]: 
gender F M 


acl 
High 62 104 
Low 321 162 


图 5.12 


In [23]: fig, axes = plt.subplots(1,2, figsize = (14,4)) 
gender_acl_table.plot(kind='bar', stacked=True, ax-axes[]); 
(19¢* (gender_acl_table.T/gender_acl_table.apply(sum, axis=1)).T).plot(kind="bar’, stacked=True, ax=axes[1]); 
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图 5.13 
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ER 5.13 中 可 以 看 到 ， 一 方面 ，Low 分 组 中 的 女性 比例 大 于 男性 ， 另 一 方面 ， 对 了 
酒精 摄 入 量 较 大 的 一 组 ， 男 性 占据 了 较 大 的 比例 。 因 此 ， 两 个 变量 间 似 乎 包含 了 某 种 关 
系 ， 样 本 中 显然 也 涵盖 了 某 种 关系 。 这 里 的 问题 是 ， 这 种 关系 适用 于 总 体 吗 ? 为 了 回答 
这 一 问题 ， 我 们 需要 执行 假设 测试 ， 如 图 5.14 所 示 。 
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chi_stat, p_value, dof, expected = stats.chi2 contingency(gender acl table) 


p_value 


+ 8.72933011769437e-11 


In [26]: expected_table = pd.DataFrame(expected, index=[‘High','Low’], columns=['F','M']) 
expected_table 


Out[26]: 
F M 


High 97.96302 68.03698 
Low 285.03698 197.96302 


图 5.14 


从 图 5.14 可 以 看 到 ， 当 前 示例 中 所 用 的 chi2_contingency 函数 源 自 stats 数据 包 ， 并 
传递 了 之 前 创建 的 关联 表 。 该 函数 将 生成 多 个 对 象 ， 如 chi-square statistic, p_value, É 
由 度 〈dof) 以 及 零 假 设 下 包含 期 望 值 的 一 个 表 。 在 当前 示例 中 ， 零 假设 可 描述 为 : 总体 
两 个 变量 间 不 存在 任何 关系 。 当 前 示例 执行 测试 后 ， 对 应 结果 如 图 5.15 所 示 。 


In [24]: chi_stat, p value, dof, expected = stats.chi2 contingency(gender acl table) 


bal 


In [25]: p_value 

out[25]: 8.72933011769437e-11 

In [26]: expected table = pd.dataFrame(expected, index=['High’,'Low'], columns=['F",'M"]) 
expected_table 


Out [26] + 
F Mm 


High 97.96302 68.03608 
Low 295.03698 197.96302 


: fig, axes = plt.subplots(1,2, figsize = (14,4)) 
(199*(gender_acl table.T/gender_acl table.apply(sum, axis=1)).T)\ 
.plot(kind="bar’, stacked=True, title=‘observed’, ax=axes[0]); 


(100* (expected_table.T/expected_table.apply(sum, axis=1)).T)\ 


«plot(kind="bar’, stacked=True, title='Expected under NO relation’, ax=axes[1]); 


Observed Expected under NO relation 
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对 于 图 5.15 中 的 p_value 对 象 ， 可 以 看 到 该 值 较 低 ， 即 8.72933011769437e-11, Kt 
为 备 择 假设 提供 了 较为 明显 的 证 据 。 在 当前 示例 中 ， 备 择 假设 是 指 两 个 变量 间 实 际 上 存 
在 某 种 关系 。 另 一 个 令 人 感 兴趣 的 对 象 则 是 expected。 如 果 零 假设 成 立 ， 这 将 是 我 们 观察 
到 的 期 望 频率 。 

需要 记 住 的 是 ， 上 述 示 例 测试 的 零 假 设 可 描述 为 ， 两 个 变量 间 不 存在 某 种 关系 。 因 
此 ， 如 果 总 体 中 不 存在 任何 关系 ， 则 可 对 In [32] 执 行 可 视 化 操作 ， 进 而 观察 数据 的 状态 
并 进行 适当 比较 。 相 应 地 ， 这 可 视 作 一 个 额外 的 证 据 ， 进 而 展示 了 男性 学 生 的 饮酒 习惯 
与 女性 学 生 的 饮酒 习惯 之 间 的 差异 。 不 难 发 现 ， 男 性 学 生 的 饮酒 量 较 高 。 
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本 章 讨论 了 SciPy， 并 于 随后 对 各 种 子 包 进行 了 简要 的 介绍 。 除 此 之 外 ,我们 还 学 习 
了 如 何 利用 scipy.stats 数据 包 执 行 卡 方 测试 ， 进 而 执行 其 他 的 一 些 计 算 ， 如 置信 区 间 、 概 
率 计算 以 及 其 他 的 统计 测试 类 型 。 

第 6 章 将 讨论 预测 分 析 模型 、 机 器 学 习 和 scikit-leam 库 等 内 容 。 


第 6 章 ”预测 分 析 模 型 


本 章 主 要 涉及 以 下 主题 。 
口 ”预测 分 析 。 
a 
a 
(m) 


机 器 学 习 。 
scikit-learn JÆ o 
如 何 构建 分 类 和 回归 模型 。 


6.1 预测 分 析 和 机 器 学 习 


本 节 将 介绍 预测 分 析 的 基础 知识 ， 并 深入 了 解 基于 预测 分 析 的 机 器 学 习 方 案 ， 以 及 
各 种 类 型 的 机 器 学 习 模型 。 在 本 节 的 最 后 还 将 会 介绍 监督 学 习 模型 的 组 成 部 分 。 


Qez: 


在 当前 上 下 文 环境 中 ， 预 测 是 指 对 未 知 或 尚未 观察 到 的 结果 进行 猜测 ， 而 与 未 来 无 关 。 


存在 多 种 方式 可 对 事物 进行 预测 。 例 如 ， 通 过 直觉 或 者 请 教 专家 进行 判断 ， 这 些 都 
是 较为 传统 的 商业 惯例 。 最 近 ， 较 为 成 功 的 方法 就 是 预测 分 析 。 

近 些 年 来 ， 预 测 分 析 的 应 用 得 到 了 显著 的 发 展 ， 主 要 涉及 以 下 两 个 原因 。 

口 科技 的 发 展 为 我 们 提供 了 实现 这 种 分 析 的 手段 。 
O ”预测 分 析 具 有 非常 有 效 、 准 确 的 特征 ， 并 且 工 作 良 好 。 

预测 分 析 是 将 数据 与 数学 、 统 计 学 和 计算 机 科学 技术 相 结 合 ， 进 而 对 未 知事 件 进行 
预测 。 预 测 分 析 的 目标 是 对 未 知事 件 可 能 发 生 的 情况 进行 良好 的 评估 。 

那么 ， 如 何 执行 预测 分 析 。 对 此 ， 存 在 多 种 解决 方案 。 近 期 ， 机 器 学 习 表现 得 较为 
突出 ， 为 了 进一步 理解 其 工作 方式 ， 下 面 首先 对 机 器 学 习 展 开 讨 论 。 

机 器 学 习 是 计算 机 科学 的 一 个 子 领域 ， 并 可 以 简单 地 描述 为 : 无 须 显 式 地 编程 即 可 
赋予 计算 机 某 种 学 习 能 力 。 机 器 学 习 领 域 已 经 发 展 出 许多 方法 ， 以 使 计算 机 使 用 数据 执 
行 某 些 任务 。 这 些 方法 在 预测 分 析 方 面 非 常 成 功 。 当 然 ， 机 器 学 习 也 存在 一 些 缺 点 ， 理 
解 机 器 学 习 可 能 会 遇 到 的 问题 是 十 分 重要 的 。 我 们 可 以 把 此 类 学 习 问 题 分 成 几 个 大 类 。 
为 了 简化 这 一 问题 ， 可 以 考虑 两 组 学 习 模式 ， 即 监督 学 习 和 无 监督 学 习 。 本 节 主 要 讨论 
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监督 学 习 ， 以 及 构建 监督 机 器 学 习 所 需 的 各 种 元 素 。 
在 考虑 创建 机 器 学 习 模 型 时 , 首先 应 想到 的 问题 是 : 如 何 知 道 应 该 使 用 监督 式 学 习 ? 
理解 这 一 点 的 关键 在 于 获取 需要 预测 的 目标 变量 。 监 督 式 学 习 包含 了 与 特定 概念 /主题 相 
关 的 样本 或 观测 结果 。 其 中 ， 每 个 观测 结果 都 具有 不 同 的 特征 ， 这 些 特 征 通常 称 作 属 性 
或 目标 变量 ， 同 时 需要 对 这 些 目标 变量 进行 预测 。 

下 面 考查 包含 多 行 学 生 数 据 的 数据 集 。 图 6.1 分 别 显 示 了 性 别 、 年 龄 、 住 址 等 特征 
信息 。 


school sex age address famsize Pstatus Medu Fedu ~ famrel freetime goout Dalc Walc health absences G1 G2 G3 


GP 18 u A 
GP 7 


0 4 
1 

2 GP 15 

3 

4 


Oog 1 4 nn 


“non 


3 3 
5 3 1 1 3 2 

1 at_home ws 4 3 $ 3 3 6 13 12 
3 2 1 1 5 o 14 14 
4 3 , 5 0 1313 


4 
T 1 
T 1 
GP 15 T 4 2 health 
GP 16 T 3 


3 other 


5 rows * 33 columns 


图 6.1 


如 果 将 上 述 特 征 之 一 定义 为 需要 预测 的 目标 变量 ， 随 后 即 可 使 用 监督 式 学 习 方案 。 
监督 式 学 习 主要 考查 两 方面 的 内 容 ， 即 回归 和 分 类 。 二 者 间 的 差别 十 分 简单 ， 一 方 
面 ， 当 目标 变量 在 本 质 上 是 类 别 变量 时 ， 即 会 进行 分 类 ， 这 方面 的 一 些 例 子 包括 酒精 消 
费 水 平 〈 低 或 高 ) 或 信用 卡 交易 的 类 型 ， 另 一 方面 ， 如 果 目 标 变量 是 一 个 数值 变量 ， 则 
会 涉及 回归 问题 ， 数 值 变量 的 一 些 相 关 示例 包括 房屋 或 股票 的 价格 ， 或 者 一 个 月 内 售 出 
单元 的 数量 。 针 对 每 一 类 问题 ， 分 别 存在 多 种 模型 可 对 其 进行 修正 。 

综 上 所 述 ， 首 先 ， 可 将 本 节 中 的 模型 视 为 一 个 黑 盒 ， 这 意味 着 我 们 不 会 解释 与 内 部 
工作 方式 相关 的 细节 内 容 。 考 虑 到 这 是 对 预测 分 析 的 整体 介绍 ， 因 而 接 下 来 将 关注 如 何 
构建 预测 模型 的 全 局 内 容 。 这 一 原则 同样 适用 于 机 器 学 习 中 的 大 多 数 概念 。 


6.2 ”理解 scikit-learn 库 


本 节 主 要 介绍 scikit-leam 库 ， 并 以 此 实现 简单 的 预测 模型 。 对 此 ， 需 要 深入 理解 
scikit-learn， 以 及 如 何 向 Jupyter Notebook 加 载 iris 数据 集 。 随 后 ， 将 详细 讨论 如 何 利 
scikit-learn 构建 机 器 学 习 模型 ， 并 在 此 基础 上 实现 简单 的 预测 模型 。 

scikit-learn 是 针对 机 器 学 习 的 一 个 较为 流行 的 Python 库 ， 同 时 面向 数据 建 模 和 数据 
分 析 提 供 了 高 效 的 API TH. scikit-learn 构建 于 NumPy、SciPy 和 Matplotlib 之 上 。 图 6.2 
显示 了 Jupyter Notebook 中 的 操作 结果 。 
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: from sklearn import datasets 


: import pandas as pd 


import numpy as np 


: dris = datasets.load_iris() 


iris_features = iris.data 
iris target = iris.terget 


iris_df = pd.DataFrame(data=iris.data, columns=iris.feature_names) 


iris_df[‘target'] = iris.target_names[iris.target] 


iris_df.head() 


sepal length (cm) sepal width (cm) petal length (cm) petal width (cm) target 


5.1 
4.9 
4.7 
46 
5.0 


3.5 
3.0 
3.2 
34 


3.6 


图 6.2 


14 
14 
13 
15 


14 


0.2 setosa 
0.2 setosa 
0.2 setosa 
0.2 setosa 


0.2 setosa 


(01 * 


此 处 并 未 导入 全 体 库 ， 而 是 有 针对 性 地 导入 了 某 些 库 。 另 外 ， 我 们 需要 导入 datasets 


对 象 ， 进 而 可 加 载 scikit-learn 提供 的 所 有 数据 集 。 


为 了 更 好 地 理解 上 述 概念 ， 这 里 将 采用 iris 作为 示例 。 图 6.3 中 显示 了 iris 数据 集中 
的 一 些 数据 行 。 


iris_df = pd.DataFrame(data=iris.data，columns=iris.feature_names) 
iris_df['target'] = iris.target_names[iris.target] 


iris_í 


df.head() 


sepal length (cm) sepal width (cm) petal length (cm) petal width (em) 


target 


该 数据 集 


5.1 3.5 
4.9 3.0 


47 3.2 


4.6 3.1 


5.0 3.6 


14 
14 
1.3 
1.5 


14 


图 6.3 


0.2 
0.2 
0.2 
0.2 


0.2 


包含 了 与 花灯 相关 的 150 个 观测 结果 ， 且 每 休 花 对 应 了 


setosa 
setosa 
setosa 
setosa 


setosa 


F 4 个 测量 数据 ， 分 


别 表 示 为 sepal length, sepal width, petal length, petal width 。 除 此 之 外 ， 此 处 还 定义 了 花 


的 种 类 ， 并 将 


T 


作 目 标 变量 。 


数据 集中 提 弄 


的 物种 包括 setosa, versicolor 和 virginica。 如 果 使 用 数据 身 


中 的 测量 值 
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来 预测 花灯 的 种 类 , 这 将 是 一 个 类 别 变量 。 也 就 是 说 , 我 们 正在 执行 一 项 分 类 任务 。scikit- 
leam 中 实现 的 主要 API 则 是 估计 函数 。 估 计 函 数 对 象 中 包含 了 数据 学 习 所 用 的 模型 。 

在 Jupyter Notebook 中 ， 首 先 需要 导入 估算 函数 ( 常 称 作 模型 )。 下 列 代码 用 于 导入 
这 一 分 类 器 。 

from sklearn.neighbors import KNeighborsClassifier 


这 里 所 用 的 模型 称 作 KNeighbors 模型 ， 并 从 scikit-learn 中 予以 导入 。 随 后 ， 将 生成 
该 对 象 实例 ， 即 flower_classifier， 对 应 代码 如 下 。 


flower_classifier = KNeighborsClassifier (n_neighbors=3) 


这 里 ， 我 们 向 当前 对 象 提供 了 超 参数 。 如 前 所 述 ， 此 类 对 象 可 视 作 黑 盒 。 因 此 ， 我 
们 并 不 会 深入 讨论 与 特定 数值 或 变量 相关 的 一 些 问 题 。 

然后 ， 可 利用 这 些 数据 来 训练 估计 函数 。 为 此 ， 此 处 使 用 flower_classifier 对 象 的 fit 
方法 ， 这 有 助 于 传递 相关 特性 和 目标 。 这 意味 着 当前 已 经 使 用 了 特性 来 识别 目标 。 图 6.4 
所 示 代 码 及 其 输出 用 于 训练 估算 函数 。 


In [10]: flower_classifier.fit(X=iris_features, y=iris_target) 


Out[16]: KNeighborsClassifier(algorithm='auto', leaf_size=30, metric='minkowski', 
metric_params=None, n_jobs=1, n_neighbors=3, p=2, 


weights='uniform' ) 


图 6.4 


当前 ， 对 应 模型 可 进行 评估 操作 ， 这 也 是 我 们 无 法 查看 到 的 内 容 。 假 设 评估 结果 令 
人 满意 ， 则 可 利用 该 模型 进行 预测 。 图 6.5 显示 了 用 于 预测 花 杂 种 类 的 相关 特征 。 


O +g: 


这 里 ， 所 用 数组 须 为 二 位 NumPy 数组 
数组 的 输出 结果 为 0 时， 对 应 物种 将 被 分 类 为 setosa; 另外 ,数值 1 和 2 则 将 物种 分 


类 为 versicolor 和 virginica。 

当 预 测 花卉 的 物种 时 ， 可 使 用 分 类 器 对 象 ， 并 于 随后 传递 new_flower1， 对 应 的 输出 
结果 如 图 6.6 所 示 。 

根据 所 接收 到 的 输出 结果 ， 标 记 为 0 的 物种 为 setosa。 通 过 类 似 的 方式 ， 还 可 对 第 二 
杂 花 的 物种 进行 预测 。 针 对 不 同 的 测量 行为 ， 可 持续 执行 相同 的 操作 。 

通过 创建 包含 各 种 花茶 值 的 n 个 NumPy 数组 ,还 可 查看 累积 预测 结果 ,我们 可 将 其 
PRE new_flowers 函数 。 图 6.7 显示 了 所 定义 的 predictions 函数 。 


In [12]: 


out[12] 


In [13]: 


Out [13 


In [14]: 


In [12]: 


Out [12]: 
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mensional a 


# The feotures must be two-di 
new_flowerl = np.array([[5.1, 3.0, 1.1, 2.511) 
new_flower2 = np.array([[6.0, 2-9, 


4.5, 1.1]]) 


0 == > setosa 
1 == > versicolor 


2 == > virginica 


flower_classifier.predict(new_flower1) 


array([@]) 


flower_classifier.predict(new_flower2) 


array([1]) 
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new_flowers = np.array([[5.1, 3.0, 1.1, 0.5],[6.@, 2.9, 4.5, 1.1]]) 
predictions = flower_classifier.predict(new_flowers) 


predictions 


array([@, 1]) 


图 6.5 


array([@]) 


flower_classifier.predict(new_flower1) 


out [14]: 


图 6.6 


new_flowers = np.array([[5.1, 3.6, 1-1, @.5],[6 


predictions = flowen_classifier. predict (new_flowers) 


predictions 


array([@, 1]) 


通过 观察 可 知 ， 第 一 个 数值 对 应 于 第 一 林 花 ， 并 将 其 分 类 为 setosa; 第 二 个 数值 对 应 
于 第 二 条 花 ， 并 将 其 分 类 为 versicolor。 


6.2 节 讨 论 了 基于 
以 此 进行 预测 。 


6.3 使 用 scikit-learn 构建 回归 模型 


scikit-learn 的 ae 型 示例 。 
此 外 ， 本 节 还 将 构 寻 


将 是 一 个 描述 青少年 饮酒 习惯 的 分 类 eff. 


对 此 


查 如 但 


首先 需要 加 载 之 前 提供 的 学 4 


在 较为 基础 的 水 平 之 上 评估 该 分 类 模型。 


一 个 分 类 模型 ， 


生 数 据 集 ， 并 于 随后 


本 节 将 对 随机 森林 模型 进行 训练 ， 寺 


Ht 


并 作为 当前 环境 下 的 目标 变量 ， 这 


五 


训练 逻辑 


归 横 型 ， 进 而 考 
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| 


在 开始 阶段 ， 可 加 载 相关 库 ， 导 入 学 生 数据 集 并 对 其 进行 适当 转换 ， 类 似 于 之 前 我 
们 所 做 的 那样 。 此 处 的 目标 是 根据 学 生 的 特征 预测 其 饮酒 程度 。 这 一 类 特征 均 为 分 类 值 ， 


且 高 低 程度 不 一 而 同 。 图 6.8 显示 了 相关 库 和 数据 集 的 加 载 过 程 。 


import pandas as pd 
import numpy as np 
Xmatplotlib inline 


: | student = pd.read_csv("../data/student/student.csv", sep=";") 
student. rename(columns= gender’}, inplace=True) 
aicohol_index tudent[ "Dalc'] + 2*student[ ‘Wale’ ])/7 


student 
Student['acl'] . 


student .head(3) 


school gender Mjob Flob .. goout Dalc Waic health absences G1 G2 G3 alcohol_index 
4 at home teacher 4 3 4 0 1 1 1.000000 
1 athome other 3 2 9 1 1 1.000000 


1 athome — other 2 3 6 12 13 12 2.285714 


3 rows * 35 columns 


图 6.8 
针对 当前 分 类 模型 ， 图 6.9 显示 了 所 用 的 全 部 特征 列表 。 


In [5]: features = ['gender",'famsize','age',' time’, 'famrel','goout', 'freetime','G3'] 
target = ‘acl’ 


图 6.9 
O iz: 
scikit-learn 库 仅 支持 数字 ， 因 此 在 数字 转换 过 程 中 ， 这 一 点 十 分 重要 。 对 此 ， 可 使 用 
称 之 为 独 热 编码 的 虚拟 特征 
当 对 变量 进行 独 热 (one-hot) 编码 时 ， 女 性 学 生 对 应 于 0， 而 男性 学 生 对 应 于 1。 对 
于 famsize 和 acl (酒精 消耗 水 平 ) ， 将 采用 相同 的 转换 操作 ， 对 应 代码 如 图 6.10 所 示 。 


In [6]: # For gender: Female will be @, Male will be 1 
student['gender'] = student['gender'].map({"F':0, 'M':1}).astype(int) 
# For fam LE3" - Less or equal to 3 will be @. 'GT3' - greater than 3 will be one 


student[* ze'] = student[' fai ].map({*LE3":@, 'GT3':1}).astype(int) 
# for acl: ‘Low' will be @, ‘High’ will be 1 
student['scl'] = student[‘scl*].map({'Low':8, "High':1}).astype(int) 


图 6.10 
随后 ， 可 将 此 类 数值 保存 至 对 象 x 和 y 中 ， 对 应 代码 如 下 所 示 。 


x = student [features] .values 
y = student [target] .values 
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当 构 建 简单 模型 时 ， 需 要 预测 最 为 常见 的 类 别 。 在 当前 示例 中 ， 可 通过 如 图 6.11 所 
示 的 代码 计算 最 为 常见 的 类 别 。 


In [8]: | student['ac1'].value_counts(normalize=True) 


Out[8]: Ə 日 .744222 
1 @.255778 
Name: acl, dtype: floated 


图 6.11 


可 以 看 到 ， 大 约 74% 的 学 生 的 酒精 摄 入 量 较 低 。 因 此 ， 我 们 可 以 构建 一 个 简单 的 模 
型 ， 并 对 74% 的 不 可 见 情形 进行 正确 的 分 类 。 这 一 数字 十 分 重要 一 一 它 提供 了 第 一 个 基 
准 ， 随 后 可 以 此 来 比较 所 构建 模型 的 优良 程度 。 

下 面 将 构建 一 个 称 之 为 逻辑 回归 的 预测 模型 ， 导 入 该 模型 ， 创 建 该 对 象 的 实例 ， 并 
于 随后 利用 我 们 的 数据 训练 该 模型 。 图 6.12 所 示 的 代码 块 描述 了 这 一 过 程 。 


In [9]: from sklearn.linear_model import LogisticRegression 


In [10]: student_classifier_logreg = LogisticRegression(C=2) 


In [11]: student_classifier_logreg.fit(X, y) 


Out[11]: LogisticRegression(C=2, class_weight=None, dual=False, fit_intercept=True, 
intercept_scaling=1, max_iter=10@, multi_class='ovr’, n_jobs=1, 
penalty='12', random_state=None, solver='liblinear’, tol=@.0001, 
verbose=@, warm_start=False) 


图 6.12 
当 整 体 评 估 当 前 模型 时 ， 需 要 利用 交叉 验证 对 其 进行 评估 。 目 前 ， 这 一 评估 过 程 还 
较为 基础 ， 以 使 我 们 对 这 一 概念 有 一 个 大 致 的 了 解 ， 如 图 6.13 所 示 。 
In [12]: student['predictions logreg'] = student_classifier logreg.predict(X) 


In [13]: confusion_matrix = pd.crosstab(student['predictions_logreg'], student['acl']) 
confusion_matrix 


lout [13]: 


predictions_logreg 


0 453 105 


图 6.13 
首先 ， 可 计算 单元 格 中 的 预测 结果 《〈 计 算 当 前 模型 生成 的 预测 结果 ) ;随后 ， 将 预 


测 结果 和 实际 观察 结果 制 成 一 个 表格 ， 进 而 构建 一 个 混淆 矩阵 ， 如 图 6.14 所 示 。 
和 矩阵 的 对 角 线 表示 分 类 器 做 出 正确 预测 的 数量 ， 随 后 可 根据 该 数字 计算 名 为 Accuracy 


om 
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的 简单 的 评估 矩阵。 这 只 是 模型 所 生成 的 正确 预测 的 一 部 分 内 容 。 在 所 有 这 些 预测 结果 
中 ， 左 上 角 和 右 下 角 对 应 的 数值 是 正确 的 结果 。 


predictions_logreg 


0 453 105 


1 30 61 


图 6.14 


据 此 ， 可 计算 当前 模型 的 精确 度 ， 对 应 代码 如 图 6.15 所 示 。 


1)/student. shape[9] 


通过 观察 可 知 ， 当 


图 6.15 


前 模型 的 精确 度 为 0.79 或 79%。 相 应 地 ， 可 将 该 值 与 简单 模型 的 


精确 度 〈74%) 进行 比较 。 可 以 发 现 ， 两 个 模型 中 所 得 到 的 数值 相差 无 几 ， 其 原因 在 于 ， 
逻辑 回归 模型 是 一 类 十 分 简单 的 模型 。 

另外 ， 我 们 还 可 尝试 使 用 更 为 复杂 的 模型 ， 即 RandomForestClassifier, st 
黑 盒 以 查看 精确 度 方 面 的 变化 。 针 对 于 此 ， 首 先 可 导入 一 个 对 象 ， 创 建 该 对 象 实例 ， 利 


用 相关 数据 训练 该 模型 ， 


In [14]: from sklearn,ensemble 


In [15]: | student_classifier_rf 


In [16]: student_classifier_rf。 


并 于 随后 生成 预测 结果 ， 对 应 代码 如 图 6.16 所 示 。 


import RandomForestClassifier 


= RandomForestclassifier() 


fit(X,y) 


student[ ‘predictions rf’] = student_classifier_rf.predict(x) 


In [17]: confusion_matrix = pd. 


confusion_matrix 


acl 0 1 
predictions_rf 
0 480 19 
1 3 147 


crosstab(student[ ‘predictions rf*], student[‘acl"]) 


ac = (confusion_matrix.ix[2,0] + confusion matrix.ix[1,1])/student.shape[o] 
print("accuracy: {}".format(ac)) 


Accuracy: 0.9661016949152542 


9]: # [gender “fansize’, 


age’, ‘studytime’, “FanreL ‘goout", ‘freetime’, “63°] 


new_student = np.array([[0, 1, 18, 2, 1, 5, 5» 16]]) 
prediction = student_classifier_rf.predict(nen_student) 
print("The mo: edicts that udent belongs to the:") 


if prediction 


print( ohol 


else: 


n group”) 


print ("Low Alcohol Consumption group”) 


图 6.16 
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此 处 构建 了 一 个 新 的 混淆 矩阵 ， 如 图 6.17 所 示 。 通 过 观察 可 知 ， 模 型 的 精确 度 较 高 。 


predictions_rf 


0 480 19 


图 6.17 


最 终 ， 模 型 的 精确 度 为 96%， 其 原因 在 于 ， 随 机 森林 这 一 类 复杂 模型 往往 会 产生 过 
拟 合 。 过 拟 合 这 一 概念 是 指 ， 模 型 了 解数 据 集中 所 发 生 的 状况 ， 但 未 将 这 一 知识 一 般 化 
至 不 可 见 数据 。 

这 也 是 模型 评估 本 质 上 非常 复杂 并 且 需 要 交叉 验证 的 主要 原因 之 一 。 然 而 ， 精 度 和 矩 
阵 是 预测 模型 中 经 常 使 用 的 一 个 矩阵 。 

目前 ， 我 们 可 使 用 该 模型 对 不 可 见 数据 进行 预测 。 假 设 出 现 了 一 名 包含 新 特征 的 学 
生 ， 该 学 生 为 男性 ， 年 龄 为 18 周岁， 来 自 于 一 个 多 人 口 家 庭 ， 另外 ， 他 每 周 学 习 两 个 小 
时 ， 且 家 庭 关 系 较 差 。 根 据 如 图 6.18 所 示 的 代码 ， 可 预测 该 名 学 生 的 酒精 摄 入 量 。 


t', ‘freetime’, "63"] 


1: 
H Alcohol Consumption group") 

e: 

print("LOW Alcohol Consumption group”) 


The model predicts that the student belongs to the: 
HIGH Alcohol Consumption group 


BI 6.18 


随后 ， 当 前 模型 预测 该 名 学 生 属 于 HIGH Alcohol Consumption group. 
对 于 另 一 个 示例 ， 其 中 ， 学 生 为 女性 ， 且 在 学 校 表现 优异 ， 该 学 生 的 期 末 成 绩 为 16 
分 。 图 6.19 显示 了 代码 的 输出 结果 


In [19]: |# [“gender', ‘famsize’, ‘age’, ' We “fomrel", ‘gout’, ‘freetine’, “G3°] 
new_student = np. Berar Tey i 
edi 


print ("1 
if prediction 
ohol consumption group") 


print("Low Alcohol consumption group”) 


The model predicts that the student belongs to the: 
LOW Alcohol Consumption group 


图 6.19 
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根据 上 述 特征 ， 模 型 预测 该 学 生 属 于 LOW Alcohol Consumption group. 


6.4 利用 回归 模型 预测 房屋 价格 


本 节 将 利用 房产 数据 集 构 建 回 归 模 型 。 首 先 ， 需 要 加 载 房屋 价格 数据 集 以 供 建 模 使 
用 。 随 后 ， 将 训练 一 个 线性 回归 模型 ， 并 通过 一 种 简单 、 直 观 的 方式 评估 该 模型 ， 进 而 
通过 该 模型 预测 结果 。 
下 面 加 载 相关 库 并 导入 数据 集 。 如 前 所 述 ， 我 们 意识 到 这 样 一 个 事实 ， 在 该 数据 集 
中 ， 一 些 社区 包含 较 少 的 观测 结果 。 为 了 解决 这 一 问题 ， 仅 对 超过 30 个 观测 结果 的 社区 
使 用 当前 模型 。 对 此 ， 应 使 用 以 下 代码 块 。 

counts = housing['Neighborhood'] .value counts () 


more than 30 = list (counts [counts>30] .index) 
housing = housing. loc[housing['Neighborhood'].isin(more than 30)] 


根据 之 前 讨论 的 探索 性 数据 分 析 ， 可 针对 模型 选取 以 下 特征 。 


features = ['CentralAir', 'LotArea', 'OverallQual', 'OverallCond', 
"lstFlrSF', '2ndFlrSF', 'BedroomAbvGr', 'Age'] 
target = 'SalePrice' 


通过 观察 可 知 ， 目 标 变量 为 房屋 的 SalePrice; 鉴于 这 是 一 个 数字 ， 因 而 此 处 将 对 回 
归 问 题 进 行 处 理 。 

相 比 之 下 ，Neighborhood 和 CentralAir 并 非 是 数字 数据 ， 因 而 需要 转换 为 数值 变量 。 
针对 于 此 ， 可 使 用 以 下 代码 行 。 


# Neighborhood 
dummies nb = pd.get dummies (housing['Neighborhood'], 
drop first=True) 
housing = pd.concat([housing, dummies nb], axis=1) 
# CentralAir 
housing['CentralAir'] = housing['CentralAir'].map({'N':0, 
"Y':1}) .astype (int) 


上 述 代 码 将 针对 每 个 社区 生成 新 的 变量 ， 即 虚拟 变量 (dummy variable) 。 实 际 上 ， 
这 针对 每 个 社区 创建 了 包含 值 为 1 的 新 向 量 一 一 房屋 属于 该 社区 ; 否则 ， 将 创建 一 个 包 
含 值 为 0 的 新 向 量 。 另 外 ， 对 于 未 配置 CentralAir 的 房屋 ， 可 向 其 赋予 值 为 0， 否则 赋予 
值 为 1。 
接 下 来 ， 向 特征 列表 中 加 入 一 些 新 的 特征 ， 并 创建 包含 特征 、 目 标 变量 和 观测 结果 
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的 对 象 ， 如 图 6.20 所 示 。 


features += list(dummies_nb.columns) 


housing[features].values 
housing[target].values 
housing. shape[@] 


图 6.20 
在 训练 模型 之 前 ， 应 确保 该 模型 足够 简单 。 对 于 回归 模型 ， 一 种 最 为 简单 的 模型 是 
预测 平均 值 。 对 此 ， 可 使 用 如 图 6.21 所 示 的 代码 。 


In [8]: y_mean = np.mean(y) 
y_mean 


Out [8]: 


180167 .63358778626 


图 6.21 


对 于 当前 目标 变量 ， 平 均值 约 为 180000 美元 。 针 对 模型 评估 ， 可 使 用 均 方 根 误差 评 
估 测 量 方案 ， 常 称 作 RMSE， 该 公式 为 


RMSE = [Ses — pred) 
n 


这 里 ， 将 观测 值 与 预测 值 进行 比较 会 发 现 ， 观 测 值 和 预测 值 越 接近 ， 度 量 
小 。 此 处 我 们 希望 得 到 尽 可 能 4 


度量 结果 就 越 
\ 的 度量 结果 。 
当 对 简单 模型 计算 均 方 根 误差 时 ， 可 采用 如 图 6.22 所 示 的 代码 行 。 


In [9]: 
RMSE_null_model 


RMSE_null_model = np.sqrt(np.sum((y - y_mean)**2) / n) 


Out[9]: 78032.944854541085 


图 6.22 
经 观察 可 知 ， 对 应 值 约 为 70000 美元 。 
当 构 建 


回归 模型 时 ， 首 先 需要 导入 一 个 对 象 ， 并 于 随后 创建 该 对 象 的 实例 ， 进 而 训 
练 模型 并 进行 预测 ， 如 图 6.23 所 示 。 
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In [10]: from sklearn.linear_model import LinearRegression 


In [11]: regressor = LinearRegression() 


In [12]: regressor.fit(x, y) 


Out[12]: LinearRegression(copy X=True, fit_intercept=True, n_jobs=1, normalize=False) 
In [13]: housing['predictions"] = regressor.predict(x) 


In [14]: y_pred = housing[ 'predictions'].values 


图 6.23 
当 计算 模型 的 均 方 根 误差 时 ， 需 要 实现 如 图 6.24 所 示 的 代码 行 。 


In [15]: RMSE_regressor = np.sqrt(np.sum((y - y_pred)**2) / n) 
RMSE_regressor 


Out[15]: 33729.218173366113 


图 6.24 


当前 模型 的 输出 结果 约 为 33000 美元 ， 与 我 们 的 简单 模型 相 比 ， 这 是 一 个 非常 低 的 
数字 。 当 在 predictions 与 房屋 的 实际 SalePrice 之 间 进 行 比较 时 (通过 可 视 化 方式 ) ， 可 
采用 如 图 6.25 所 示 的 函数 生成 一 个 散 点 图 。 


In [16]: housing.plot.scatter(x='SalePrice', y='"predictions'); 
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图 6.25 
从 图 6.25 所 示 的 散 点 图 中 可 以 清晰 地 看 到 ， 预 测 结果 非常 接近 于 房屋 的 实际 
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SalePrices， 这 也 说 明 当前 模型 具有 一 定 的 精确 度 。 


= J21 > 


接 下 来 ， 我 们 将 对 包含 各 类 新 特征 的 房屋 进行 预测 。 如 房屋 包含 CentralAir、LotArea、 
OverallQual (6) 和 OverallCond (6) 。 图 6.26 所 示 的 代码 将 对 房屋 价格 进行 预测 。 


In [17]: new_house = np.array([[9, 12000, 6, 6, 1290, 5800, 3, 5, 9,9,1,6,9,6,9,0,8,9,9,9,0,9,0]] 
prediction = regressor.predict(new_house) 
print("For a house with the following characteristics: \n") 
for feature, feature value in zip(features, new_house[@]): 
if feature_value > Ə: 
print("{}: {}".format(feature, feature_value)) 
print("\nThe predictied value for the house is: {:,}".format(round(prediction[9]))) 


For a house with the following characteristics: 


LotArea: 12008 
Overallqual: 6 
Overallcond: 6 
1stFlrSF: 1200 
2ndFlrSF: 500 
BedraomabvGr: 3 
Age: 5 
Edwards: 1 


The predictied value for the house is: 184,395.90 
图 6.26 
预测 结果 表明 ， 房 屋 来 自 Edwards 社区 ， 且 房价 为 184395 美元 。 


对 于 不 同 的 示例 ， 可 适当 地 调整 社区 。 假 设 服务 未 配置 CentralAir 且 属 于 Timber 社 


区 ， 对 应 代码 的 输出 结果 如 图 6.27 所 示 。 


In [18]: new_house = nparray([[e，128668，6，6，1286，588，3，5，6,6,6,B6,66,8,6,8,6,8,6,9,1]]) 
prediction = regressor.predict(new_house) 
print("For a house with the following characteri 
for feature, feature_value in rip(features, new_house[@]): 
if feature_value > 2: 
print("{}: {}".format(feature, feature_value)) 
print("\nThe predictied value for the house is: {:,}".format(round(prediction[@]))) 


For a house with the following characteristics: 


LotArea: 12008 
Overallqual: 6 
OverallCond: 6 
AstFIrsF: 1200 
2ndFIrsF: 500 

BedroomAbvGr: 3 
Age: 5 

Timber: 1 


The predictied value for the house is: 214,944.0 


图 6.27 


随后 ， 模 型 预测 房价 为 214944 美元 。 针 对 不 同 的 房屋 ， 我 们 可 通过 相同 的 代码 生 


T 


预测 结果 。 需 要 记 住 的 是 ， 本 节 所 构建 的 模型 并 未 进行 全 方位 的 评估 。 虽 然 我 们 采用 了 


较为 常见 的 评估 度量 方案 ， 但 机 器 学 习 模型 中 的 核心 步骤 一 般 采 用 交叉 验 订 


E。 对 于 模型 
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的 性 能 评估 来 说 ， 这 一 点 不 可 或 缺 。 
65 本 章 小 结 


本 章 讨 论 了 预测 分 析 以 及 与 监督 式 机 器 学 习 相关 的 一 些 概念 ， 并 介绍 了 如 何 通 过 
Python 执行 机 器 学 习 方 面 的 操作 。 此 外 ， 本 章 还 利用 scikit-learn 考查 了 预测 分 析 中 的 各 
种 实例 ， 以 及 如 何 训练 分 类 模型 以 进行 预测 。 最 后 ， 本 章 构 建 了 一 个 回归 模型 并 以 此 进 
行 预 测 。 


